Мова99

Нейрасеткі ўсё яшчэ спатыкаюцца на беларускім маўленні. Беларусы хочуць падарыць штучнаму інтэлекту ідэальны голас

Тэхналогіі сінтэзу маўлення імкліва захопліваюць свет, але сінтэзаваная беларуская мова дагэтуль гучыць з адчувальнымі дэфектамі. Нават самыя прасунутыя мадэлі спатыкаюцца на нашых націсках і фанетыцы. Беларусы запусцілі праект Sonora па стварэнні першага студыйнага датасэта, які мусіць назаўжды змяніць гучанне лічбавай беларушчыны.

Гуказапісвальная студыя. Ілюстрацыйнае фота. Фота: Freepik / DC Studio

Важны тэхналагічны прарыў у сінтэзе беларускага маўлення адбыўся яшчэ вясной 2025 года, дзякуючы ўкараненню карпарацыяй Google сваёй новай мадэлі Gemini, якая навучылася якасна распазнаваць беларускае маўленне (STT — Speech-to-Text), дзякуючы чаму, напрыклад, на ютубе нарэшце з'явіліся аўтаматычныя беларускамоўныя субцітры.

Гэтаму шмат у чым паспрыялі самі беларусы праз валанцёрскі праект Donar.by, сабраўшы тысячы гадзін жывых галасоў.

Дзякуючы гэтай гіганцкай базе даных, сёння менавіта голас ад Google з'яўляецца найбольш блізкім да правільнага гучання беларускай мовы. Мадэль добра разумее кантэкст і мае вялізны слоўнікавы запас, пакідаючы далёка ззаду канкурэнтаў з OpenAI ці ElevenLabs, чые спробы загаварыць па-беларуску далёкія ад натуральнага маўлення. 

Але распазнаць маўленне — гэта толькі палова справы. Калі ж нейрасетцы даводзіцца самой агучваць тэкст (TTS — Text-to-Speech), яна сістэматычна памыляецца ў рэдкаўжывальных словах і не можа справіцца з амографамі — словамі, якія пішуцца аднолькава, але маюць розны сэнс у залежнасці ад націску.

Калі замест правільнага «спарыша́мі» штучны інтэлект упэўнена выдае «спары́шамі», гэта адразу выдае яго сінтэтычную прыроду для носьбіта мовы. Сам носьбіт можа і не ведаць значэнне слова, не ведаць дзе ў ім ставіцца націск, але моўная інтуіцыя яму падказвае, што нешта не тое.

Да таго ж такія памылкі, няхай і рэдкія ў мадэлях Google, робяць мядзведжую паслугу тым, хто толькі пачынае засвойваць беларускую мову, замацоўваючы перакрыўленае вымаўленне. 

Дадайце сюды праблемы з перадачай мяккасці зычных, спецыфічным гучаннем «ў», афрыкатамі «дз» і «дж» — слухаць і ўспрымаць доўгія тэксты ў такім выкананні пакуль фізічна цяжка.

Голас з прабіркі

Праблема не ў тым, што алгарытмы недастаткова разумныя — у выпадку з беларускай мовай ім проста няма на чым вучыцца. Каб штучны інтэлект засвоіў правільную інтанацыю, рытм і націскі, яму недастаткова аўдыя з ютуба ці падкастаў, дзе якасць гуку заўсёды розная, а дыкцыя людзей недасканалая.

Для стварэння натуральнага сінтэзаванага голасу патрабуецца спецыяльны, крышталёва чысты студыйны датасэт. Гэта тысячы гадзін прафесійнай начыткі, дзе тэксты спецыяльна сканструяваныя лінгвістамі такім чынам, каб ахапіць усе магчымыя фанетычныя спалучэнні і паказаць мадэлі, як правільна ставіць націскі ў складаных кантэкстах. Сёння ў свеце проста не існуе такога адкрытага масіва дадзеных для беларускай мовы.

Менавіта гэтую пустую нішу і збіраецца запоўніць праект Sonora. Гэта валанцёрская ініцыятыва, якую рухаюць праектная менеджарка Ганна Маклакова, інжынер-лінгвіст Уладзіслаў, каманда распрацоўшчыкаў TuteishyGPT і шэраг спецыялістаў, чые імёны не называюцца з меркаванняў бяспекі. Іх мэта — не стварыць закрыты камерцыйны прадукт, а зрабіць фундаментальную базу, якую змогуць выкарыстоўваць усе.

Як хочуць зрабіць ідэальны голас

Цяпер каманда знаходзіцца на этапе збору сродкаў, плануючы сабраць 13 000 еўра на праект. Найбольшая частка бюджэту пойдзе на арэнду прафесійнай студыі і аплату працы дыктараў з ідэальным вымаўленнем. Рэшта — на паслугі гукарэжысёраў і карпатлівую працу лінгвістаў, якія будуць рыхтаваць і размячаць тэкставы корпус, і іншыя выдаткі.

Вынікам гэтай працы стане цалкам адкрыты датасэт з публічнай ліцэнзіяй. На яго аснове аўтары праекта плануюць дапрацаваць ужо існуючую айчынную мадэль BexTTS, вывеўшы яе на прынцыпова новы ўзровень.

Каманда шукае прамыя кантакты з прадстаўнікамі Google, OpenAI, Meta і Speechify, каб прапанаваць ім гатовы і якасны матэрыял. У логіцы глабальных карпарацый усё проста: калі ім даюць гатовы інструмент для паляпшэння прадукту на лакальным рынку, яны з радасцю яго інтэгруюць.

Калі сабраць усю суму адразу не атрымаецца, аўтары праекта абяцаюць пачаць запіс на тыя сродкі, якія ўжо будуць на рахунках, бо нават частковае папаўненне базы — гэта практычны крок наперад.

Ад падручнікаў да навігатараў

Прысутнасць беларускай мовы ў тэхналогіях сёння — гэта пытанне яе выжывання ў прынцыпе. Якасны сінтэз маўлення кардынальна змяняе правілы гульні ў стварэнні кантэнту.

Гэта азначае, што выданне беларускіх аўдыякніг ці агучванне доўгіх артыкулаў больш не будзе патрабаваць вялізных бюджэтаў і тыдняў працы ў студыі. Гэта магчымасць для школьнікаў і студэнтаў слухаць падручнікі, а для людзей з парушэннямі зроку ці дыслексіяй — атрымаць паўнавартасны доступ да беларускамоўнай інфармацыі.

Гэта база для стварэння айчынных галасавых памочнікаў, чат-ботаў і навігатараў, якія не будуць размаўляць з намі паламанай гуглаўскай гаворкай. Урэшце, гэта зручны інструмент для велізарнай беларускай дыяспары, якая хоча захаваць моўнае асяроддзе для сваіх дзяцей за мяжой.

«Наша Нiва» — бастыён беларушчыны

ПАДТРЫМАЦЬ

Каментары9

  • .
    19.04.2026
    1, гугл пакрысе адмяняе беларускую мову на карысць украінскай. Запыты па-беларуску ўсё часцей выдаюць украінскія спасылкі і прапановы зрабіць запыт па-украінску без памылак.
  • беларуская мадэль маўлення Bextts
    19.04.2026
    каб не пераскоквала на іншыя мовы, можна скарыстацца існуючай беларускай мадэллю

    https://huggingface.co/spaces/archivartaunik/Bextts
  • Скептык
    19.04.2026
    А нахалеру нам ідэальны штучны голас? Каб гэб'ё і ментаўё рабіла правакацыі на чысцюткай беларускай мове? Тэхнары такія тэхнары - ім абы нешта скрэацівіць, каб не адставаць ад сіліконавай даліны. а колькі шкоды гэтыя "інструменты" могуць потым нарабіць, пра гэта яны ня думаюць.

Цяпер чытаюць

«Даў усім па гранаце і сказаў: «Ведаеце, што рабіць». Літовец, які ваяваў з Лазоўскім, напісаў пранізлівы ўспамін пра яго6

«Даў усім па гранаце і сказаў: «Ведаеце, што рабіць». Літовец, які ваяваў з Лазоўскім, напісаў пранізлівы ўспамін пра яго

Усе навіны →
Усе навіны

У ЗША арыштавалі спецназаўца, які зарабіў $400 тысяч на стаўцы, што арыштуюць Мадура7

«Навошта гэта мне?» Трамп выключыў ядзерны ўдар па Іране і абвясціў аб падаўжэнні перамір'я паміж Ізраілем і Ліванам1

Перыменапаўза ў 30 гадоў: новае даследаванне паказала, што з ёй сутыкаецца больш за палову жанчын2

Памёр Уладзімір Куліковіч4

«Кавалачак пальца застаўся ў рукавіцы». Гісторыя мінчанкі, якую ў скверы ўкусіў чужы сабака2

У Літве апублікавалі шэраг архіўных спраў з фотаздымкамі Яна Булгака

На Венецыянскім біенале вырашылі сёлета зноў адкрыць расійскі павільён. Еўрасаюз пагражае адклікаць фінансаванне5

Андрэева: Калеснікаву купілі за «Беларуськалій», мяне за зняццё санкцый з банкаў. Калі б санкцый не было, за што б нас куплялі?35

Малады экс-дырэктар Нацыянальнага гістарычнага музея Беларусі перайшоў у Расіі з мемарыяла «Катынь» у музей рэвалюцыі 1905 года5

больш чытаных навін
больш лайканых навін

«Даў усім па гранаце і сказаў: «Ведаеце, што рабіць». Літовец, які ваяваў з Лазоўскім, напісаў пранізлівы ўспамін пра яго6

«Даў усім па гранаце і сказаў: «Ведаеце, што рабіць». Літовец, які ваяваў з Лазоўскім, напісаў пранізлівы ўспамін пра яго

Галоўнае
Усе навіны →

Заўвага:

 

 

 

 

Закрыць Паведаміць