ChatGPT, Bing і Аліса: якая з нейрасетак лепей валодае беларускай мовай і разумее наш кантэкст? Тэсцім
Правялі невялікі параўнальны аналіз.
У пачатку мая карпарацыя Microsoft адкрыла доступ да свайго новага чат-бота Bing — штучнага інтэлекту, які зараз з'яўляецца асноўным канкурэнтам вядомай нейрасеткі ChatGPT (якая таксама ўскосна звязана з Microsoft).
Акрамя таго, днямі расійская кампанія «Яндэкс» выпусціла абнаўленне для свайго галасавога памочніка Алісы, у якім дадала яму сваю ўласную нейрасетку YandexGPT — магчымы расійскі аналаг заходніх канкурэнтаў.
Усе тры праграмы дзейнічаюць па прынцыпе дыялогавага чата і здольныя вырашаць шматлікія задачы па запытах карыстальнікаў па ўсім свеце на мностве розных моў, сярод якіх ёсць і беларуская (Аліса — выключэнне, пакуль яна валодае толькі рускай мовай). Менавіта таму мы вырашылі праверыць гэтыя чат-боты на ўзровень валодання беларускай мовай і выявіць ступень іх разумення нашага кантэксту.
Для вызначэння найлепшай у гэтым плане нейрасеткі мы падрыхтавалі і правялі невялікі экзамен, які складаецца з дзесяці тэставых пытанняў на розную тэматыку і аднаго творчага задання на здольнасць разважаць. Пасля заканчэння выпрабавання ChatGPT, Bing і Аліса былі правераны на колькасць правільных адказаў і дакладнасць правапісу, пунктуацыі і г. д.
(Аліса ва ўмовах адсутнасці падтрымкі беларускай мовы была праверана на рускай мове).
Тэставыя пытанні
Такі тэст з 10 пытанняў мы прапанавалі прайсці нейрасеткам (правільныя адказы пазначаны спасылкамі на адпаведныя мінулыя тэсты з сайта «Нашай Нівы»).
1. Хто са знакамітых літаратараў нарадзіўся на Шчучыншчыне?
Б) Адам Міцкевіч
В) Максім Танк
Г) Францішак Багушэвіч
2. Як называўся адзіны прыжыццёвы зборнік твораў М. Багдановіча?
А) «Валошка»
Б) «Пагоня»
В) «Зорка Венера»
Г) «Вянок»
3. Што палешукі маюць на ўвазе, калі нешта называюць «вэлюрным»?
А) Нешта карункавае
В) Тое, што зроблена з велюру
4. На які склад падае націск у слове «вусы»?
А) На першы
Б) На другі
5. У якім з беларускіх гімнаў згадваецца бел-чырвона-белы сцяг?
А) «Пагоня»
Б) «Магутны Божа»
В) «Мы выйдзем шчыльнымі радамі»
Г) У афіцыйным гімне Рэспублікі Беларусь
6. Як у мінулым называлі горад Наваполацк?
А) Нафтагорск
Б) Пасёлак Рабочы
В) Наважылаўск
7. У якім горадзе кіраваў Вітаўт перад тым, як стаў вялікім князем літоўскім?
А) У Гродне
Б) У Віцебску
В) У Крэве
8. Ці праўда, што беларуская купюра наміналам 1 мільён беларускіх рублёў была самай вялікай у Беларусі?
А) Так
Б) Не
9. Які футбаліст з'яўляецца найлепшым бамбардзірам у гісторыі зборнай Беларусі?
А) Сяргей Карніленка
Б) Віталь Радзівонаў
10. Як называецца традыцыйны святочны пірог беларускіх татараў?
А) Беліш
Б) Кішміш
В) Учкудук
Г) Байрам
І вось як на гэтыя пытанні адказалі праграмы ChatGPT Bing і Алісы (на скрыншотах адлюстраваны першыя спробы адказаў без паўторных генерацый).
Вынікі тэста: ChatGPT дапусціў 7 памылак, Bing — 4 памылкі, а Аліса — 8 памылак.
Творчае заданне
Пасля тэставых заданняў мы вырашылі задаць чат-ботам адно адкрытае пытанне, над якім ім трэба было б паразважаць.
Адказы на гэтае пытанне затым былі правераны на колькасць арфаграфічных, граматычных, пунктуацыйных, маўленчых, стылістычных і графічных памылак. Заданне таксама павінна было выявіць ступень разумення кантэксту з боку штучнага інтэлекту.
Само пытанне гучыць так:
Як бы павёў сябе Кастусь Каліноўскі ў перыяд пасля выбараў 2020 года ў Беларусі?
Усе адказы нейрасетак дэманструем унізе (таксама толькі першыя спробы адказаў).
Расшыфроўка адказаў нейрасетак у арыгінале без правак.
ChatGPT: «Кастусь Каліноўскі, беларускі пісьменнік і нацыянальны герой, памёр у 1864 годзе, таму ён не мог узяць удзелу ў выбарах 2020 года ў Беларусі. Ён быў выдатным асобістасцю беларускай гісторыі, які ўдзельнічаў у нацыянальным адраджэнні і выступаў за беларускую культуру і мову. Але ў перыяд пасля выбараў 2020 года ў Беларусі адбывалася мноства падзей і зменаў у суспільстве. Мільёны людзей выйшлі на мітынгі і пратэсты, выказваючы сваё незадавальненне сытуацыяй у краіне. Шмат асоб працягвалі знаходзіцца ў супраціўленні з владой, маючы на мэту дэмакратычныя перамены і права грамадзян. Адной з важных ролей, якую гуляла б асоба падобная да Кастуся Каліноўскага ў сучасных часах, было бяспечнасць і падтрымка беларускага народу. Я веру, што Каліноўскі, у залежнасці ад сваіх ўпадабанняў і ўпэўненасці, прымаў бы актыўны ўдзел у пратэстах і стаяў бок па бок з грамадзянамі, якія стрэмяцца да свабоды, дэмакратыі і справядлівасці».
Bing: «Кастусь Каліноўскі быў адным з кіраўнікоў паўстання 1863-1864 гадоў на землях Беларусі і Літвы, якое было спрэчана супраць Расійскай імперыі. Ён выступаў за звяржэнне самадзяржаўя, скасаванне абшарніцкага землеўладання і нацыянальнае вызваленне беларускага народа. Як бы ён павёў сябе ў перыяд пасля выбараў 2020 года ў Беларусі? Гэта складанае пытанне, на якое няма адзінага адказу. Магчыма, ён бы браў удзел у пратэстах супраць рэжыму Аляксандра Лукашэнкі і выказваў салідарнасць з усімі, хто барыцца за дэмакратыю, свабоду і гуманнасць. Альбо ён бы спрабаваў стварыць новую рэвалюцыйную арганізацыю, якая могла б выступіць з альтэрнатывай палітычнай сітуацыяй і мець сваю праграму рэформ. Альбо ён бы займаўся публіцыстыкай і паэзіяй, выказваючы свой глед на сучасныя падзеі і захоўваючы нацыянальную самасвядомасць беларусаў. Гэта толькі некаторыя магчымыя варыянты, але мы можам толькі гадаць, што на самой справе было б у галаве Кастуся Каліноўскага».
Аліса. «Если бы я знала что это такое, но я не знаю, что это такое. Я не могу ответить на этот запрос, так как он содержит неприемлемый контент».
Вынікі творчага задання: ChatGPT у тэксце дапусціў 23 рознатыповыя памылкі, а Bing — толькі 10 памылак. Аліса ж у сваю чаргу цалкам заваліла заданне, бо пабаялася паразважаць над пытаннем, спаслаўшыся на «непрымальнасць кантэнту» — напэўна, у расійскай нейрасетцы выраз «Жыве Беларусь!» пазначаны як «непрымальны кантэнт».
Робім высновы
Пры ўсіх сваіх падабенствах, развітасці і ўніверсальнасці абедзве нейрасеткі паказалі адчувальную разбежку пры выкананні беларускага міні-экзамену.
ChatGPT у агульнай колькасці дапусціў 30 памылак: стваралася ўражанне, што ў тэставых пытаннях чат-бот літаральна даваў адказы наўздагад, а ў творчым заданні проста адлюстроўваў голую думку, не маючы дастатковай здольнасці захоўваць арфаграфічныя, пунктуацыйныя і асабліва стылістычныя нормы беларускай мовы.
Пры гэтым варта пахваліць штучны інтэлект за тое, што ён адразу зразумеў кантэкст адкрытага пытання пра Каліноўскага і не стаў выдумляць небыліц пра гістарычнага персанажа разам з яго характарам і дзеяннямі. ChatGPT паступова выбудоўваў свой ланцужок разважанняў, зыходзячы з кананічнасці героя, і імкнуўся даць падрабязны адказ.
Тое ж самае можна сказаць і пра Bing, які аргументавана і паступова развіваў сваю думку, не прыплятаючы нічога нерэальнага ва ўжо вядомыя ўсім факты, якія не тычацца адкрытых разважанняў.
Пры гэтым Bing паказаў сябе нашмат лепшым за свайго канкурэнта па іспыце і зрабіў значна менш рознатыповых памылак у творчым заданні.
Гэта ж можна назіраць і пры выкананні тэста, дзе Bing больш імкнецца правяраць інфармацыю перад выдачай адказаў. За ўвесь іспыт нейрасетка дапусціла толькі 14 памылак, што, канешне, не ідэальна, але выглядае значна лепш на фоне ChatGPT. (Пра Алісу мы ўвогуле не згадваем).
Аднак пры гэтым вельмі важна адзначыць той факт, што ChatGPT, у адрозненне ад Bing, не мае свабоднага доступу ў інтэрнэт (без спецыяльных плагінаў) для збору і ўдакладнення актуальнай або дадатковай інфармацыі, што дазваляе зрабіць значную скідку для ChatGPT пры яго параўнанні з Bing у кантэксце пройдзенага іспыту.
Аліса ж і YandexGPT па якасці адказаў паказалі сябе найгорш.
Каментары