Грамадства22

Праект SONORA шукае тых, хто дапаможа «падключыць» беларускі голас да BigTech

У канале «TTS па-беларуску» з'явілася аб'ява аб запуску SONORA. Гэта праект, дзе ўдзельнікі запісваюць адкрыты беларускі датасэт для TTS — «каб беларуская гучала натуральна ў сучасных AI-сэрвісах», піша тэлеграм-канал Dzik Pic.

Здымак ілюстрацыйны. Фота: freepik.com

У чым праблема? Як сцвярджаецца на сайце, сёння ў свеце амаль не існуе якасных беларускамоўных галасавых датасэтаў, спецыяльна запісаных для навучання сучасных TTS-мадэляў. Пры гэтым у беларускай мове тысячы амографаў: аднолькавае напісанне, але розны сэнс у залежнасці ад націску. Калі мадэль памыляецца з націскам, ламаецца і гучанне, і сэнс. 

Другая праблема — фанетычная карэктнасць: мяккасць, «ў», «дз/дж», інтанацыя і рытм:

«Без якаснага студыйнага матэрыялу мадэлі паўтараюць памылкі і гучаць менш натуральна».

Так, сёння ўжо існуюць падобныя ініцыятывы, напрыклад, Donar.by альбо мадэль BexTTS. Але Sonora працягне іхні шлях і «выведзе яго на студыйны ўзровень».

Таму энтузіясты запусцілі супольнае фінансаванне, каб «арганізаваць прафесійны студыйны запіс беларускага маўлення на спецыяльна падабраных тэкстах». Карыстацца датасэтам змогуць даследчыкі, энтузіясты, стартапы і адукацыйныя ініцыятывы.

Акрамя таго, каманда плануе партнёрства з Google, OpenAI і ElevenLabs — «каб наш датасэт узмацніў іх рашэнні для беларусаў».

SONORA шукае цёплыя інтры/прамыя кантакты ў:

  • Google;
  • OpenAI;
  • ElevenLabs;
  • Speechify;
  • Meta.

«Калі ведаеце каго-небудзь у гэтых кампаніях і можаце зрабіць інтра — напішыце, калі ласка, у прыват, альбо напішыце зварот ад нас самі. Тэкст звароту тут», — просяць стваральнікі.

Вы можаце паслухаць, як гучыць беларуская мова ў тэхналогіях сёння, на стартавай старонцы.

Каментары2

  • ???
    09.03.2026
    Чаму напрыклад гэтым не займаецца Каардынацыйная Рада? Ці гендарныя квоты і лгбт важней чым беларуская мова?
  • Чарговы веласіпед
    10.03.2026
    Так а ў чым розніца паміж дадзеным праектам і Donar.by? Donar.by ж спецыяльна пашыраў функцыянал Common Voice, каб былі датасэты не толькі на распазнаванне гаворкі, але і на агучку.

    Ну а наконт "амаль не існуе якасных беларускамоўных галасавых датасэтаў", то наогул хлусня, на адным толькі Common Voice на дадзены момант запісана і праверана 1800 гадзін ад больш як 8000 чалавек. Такія вялікія датасэты ў свабодным доступе мала для якой мовы існуюць.

Цяпер чытаюць

Зяленскі нагадаў Лукашэнку пра лёс Мадура18

Зяленскі нагадаў Лукашэнку пра лёс Мадура

Усе навіны →
Усе навіны

У Гродне заўважылі лісу з лісянятамі2

Памёр пастар Аляксандр Барысюк

Зламаўся цягнік Гомель — Мінск

Платформу «Тры сланы» і ініцыятыву «Вольныя» прызналі экстрэмісцкімі фармаваннямі

З 1 мая ў мінскім наземным транспарце запрацуюць кнопкі адкрыцця дзвярэй1

Два рыбакі патанулі ў Віцебскім раёне

Wildberries запусціў у Беларусі дастаўку ежы з кафэ і рэстаранаў3

Стала вядома, у чым абвінавачваюць архітэктурную студыю ZROBIM architects8

«Часам я жыла на 100 і на 40 рублёў у месяц». Як маці з 4 дзецьмі выстаяла ў глухой беларускай вёсцы2

больш чытаных навін
больш лайканых навін

Зяленскі нагадаў Лукашэнку пра лёс Мадура18

Зяленскі нагадаў Лукашэнку пра лёс Мадура

Галоўнае
Усе навіны →

Заўвага:

 

 

 

 

Закрыць Паведаміць