Грамадства22

Праект SONORA шукае тых, хто дапаможа «падключыць» беларускі голас да BigTech

У канале «TTS па-беларуску» з'явілася аб'ява аб запуску SONORA. Гэта праект, дзе ўдзельнікі запісваюць адкрыты беларускі датасэт для TTS — «каб беларуская гучала натуральна ў сучасных AI-сэрвісах», піша тэлеграм-канал Dzik Pic.

Здымак ілюстрацыйны. Фота: freepik.com

У чым праблема? Як сцвярджаецца на сайце, сёння ў свеце амаль не існуе якасных беларускамоўных галасавых датасэтаў, спецыяльна запісаных для навучання сучасных TTS-мадэляў. Пры гэтым у беларускай мове тысячы амографаў: аднолькавае напісанне, але розны сэнс у залежнасці ад націску. Калі мадэль памыляецца з націскам, ламаецца і гучанне, і сэнс. 

Другая праблема — фанетычная карэктнасць: мяккасць, «ў», «дз/дж», інтанацыя і рытм:

«Без якаснага студыйнага матэрыялу мадэлі паўтараюць памылкі і гучаць менш натуральна».

Так, сёння ўжо існуюць падобныя ініцыятывы, напрыклад, Donar.by альбо мадэль BexTTS. Але Sonora працягне іхні шлях і «выведзе яго на студыйны ўзровень».

Таму энтузіясты запусцілі супольнае фінансаванне, каб «арганізаваць прафесійны студыйны запіс беларускага маўлення на спецыяльна падабраных тэкстах». Карыстацца датасэтам змогуць даследчыкі, энтузіясты, стартапы і адукацыйныя ініцыятывы.

Акрамя таго, каманда плануе партнёрства з Google, OpenAI і ElevenLabs — «каб наш датасэт узмацніў іх рашэнні для беларусаў».

SONORA шукае цёплыя інтры/прамыя кантакты ў:

  • Google;
  • OpenAI;
  • ElevenLabs;
  • Speechify;
  • Meta.

«Калі ведаеце каго-небудзь у гэтых кампаніях і можаце зрабіць інтра — напішыце, калі ласка, у прыват, альбо напішыце зварот ад нас самі. Тэкст звароту тут», — просяць стваральнікі.

Вы можаце паслухаць, як гучыць беларуская мова ў тэхналогіях сёння, на стартавай старонцы.

Каментары2

  • ???
    09.03.2026
    Чаму напрыклад гэтым не займаецца Каардынацыйная Рада? Ці гендарныя квоты і лгбт важней чым беларуская мова?
  • Чарговы веласіпед
    10.03.2026
    Так а ў чым розніца паміж дадзеным праектам і Donar.by? Donar.by ж спецыяльна пашыраў функцыянал Common Voice, каб былі датасэты не толькі на распазнаванне гаворкі, але і на агучку.

    Ну а наконт "амаль не існуе якасных беларускамоўных галасавых датасэтаў", то наогул хлусня, на адным толькі Common Voice на дадзены момант запісана і праверана 1800 гадзін ад больш як 8000 чалавек. Такія вялікія датасэты ў свабодным доступе мала для якой мовы існуюць.

У чым прычына незадаволенасці жыхароў мікрараёна Лебядзіны ў Мінску? Вось што насамрэч там планавалі будаваць6

У чым прычына незадаволенасці жыхароў мікрараёна Лебядзіны ў Мінску? Вось што насамрэч там планавалі будаваць

Усе навіны →
Усе навіны

Мінчанка купіла кватэру ў пісьменніцкім доме, зрабіла там рамонт і праводзіць літаратурныя сустрэчы4

Ларыса Доліна не здаецца — яна хоча спагнаць больш за 2 мільёны даляраў з кур’ераў, якім яна аддала грошы6

Палітычнаму расійскаму блогеру, які хваліць Лукашэнку, забаранілі ўезд у Беларусь6

У беларускіх крамах вывесілі спіс недружалюбных краін29

Закрылі галоўны корпус БДУ1

Аскепкі збітага расійскага беспілотніка ўпалі на Майдане2

Ціханоўская: У Трампа ёсць рычагі, каб вызваліць беларускіх палітвязняў6

Кандыдата хімічных навук асудзілі па справе Гаюна12

Вяскоўцы злавілі цуда-звера, але ён знік пры дзіўных абставінах12

больш чытаных навін
больш лайканых навін

У чым прычына незадаволенасці жыхароў мікрараёна Лебядзіны ў Мінску? Вось што насамрэч там планавалі будаваць6

У чым прычына незадаволенасці жыхароў мікрараёна Лебядзіны ў Мінску? Вось што насамрэч там планавалі будаваць

Галоўнае
Усе навіны →

Заўвага:

 

 

 

 

Закрыць Паведаміць