Общество22

Проект SONORA ищет тех, кто поможет «подключить» белорусский голос к BigTech

В канале «TTS па-беларуску» появилось объявление о запуске SONORA. Это проект, где участники записывают открытый белорусский датасет для TTS — «чтобы белорусский язык звучал естественно в современных AI-сервисах», пишет телеграм-канал Dzik Pic.

Иллюстративное фото. Снимок: freepik.com

В чем проблема? Как утверждается на сайте, сегодня в мире почти не существует качественных белорусскоязычных голосовых датасетов, специально записанных для обучения современных TTS-моделей. При этом в белорусском языке тысячи омографов: одинаковое написание, но разный смысл в зависимости от ударения. Если модель ошибается с ударением, ломается и звучание, и смысл. 

Вторая проблема — фонетическая корректность: мягкость, «ў», «дз/дж», интонация и ритм:

«Без качественного студийного материала модели повторяют ошибки и звучат менее естественно».

Да, сегодня уже существуют подобные инициативы, например, Donar.by или модель BexTTS. Но Sonora продолжит их путь и «выведет его на студийный уровень».

Поэтому энтузиасты запустили совместное финансирование, чтобы «организовать профессиональную студийную запись белорусской речи на специально подобранных текстах». Пользоваться датасетом смогут исследователи, энтузиасты, стартапы и образовательные инициативы.

Кроме того, команда планирует партнерство с Google, OpenAI и ElevenLabs — «чтобы наш датасет усилил их решения для белорусов».

В частности, SONORA ищет теплые интро/прямые контакты в:

  • Google;
  • OpenAI;
  • ElevenLabs;
  • Speechify;
  • Meta.

«Если знаете кого-нибудь в этих компаниях и можете сделать интро — напишите, пожалуйста, в личку, или напишите обращение от нас сами. Текст обращения здесь», — просят создатели.

Вы можете послушать, как звучит белорусский язык в технологиях сегодня, на стартовой странице.

Комментарии2

  • ???
    09.03.2026
    Чаму напрыклад гэтым не займаецца Каардынацыйная Рада? Ці гендарныя квоты і лгбт важней чым беларуская мова?
  • Чарговы веласіпед
    10.03.2026
    Так а ў чым розніца паміж дадзеным праектам і Donar.by? Donar.by ж спецыяльна пашыраў функцыянал Common Voice, каб былі датасэты не толькі на распазнаванне гаворкі, але і на агучку.

    Ну а наконт "амаль не існуе якасных беларускамоўных галасавых датасэтаў", то наогул хлусня, на адным толькі Common Voice на дадзены момант запісана і праверана 1800 гадзін ад больш як 8000 чалавек. Такія вялікія датасэты ў свабодным доступе мала для якой мовы існуюць.

Сейчас читают

В чем причина недовольства жителей микрорайона Лебяжий в Минске? Вот что на самом деле там планировали строить5

В чем причина недовольства жителей микрорайона Лебяжий в Минске? Вот что на самом деле там планировали строить

Все новости →
Все новости

В белорусских магазинах вывесили список недружественных стран29

Закрыли главный корпус БГУ1

Осколки сбитого российского беспилотника упали на Майдане2

Тихановская: У Трампа есть рычаги, чтобы освободить белорусских политзаключенных6

Кандидата химических наук осудили по делу Гаюна12

Сельчане поймали чудо-зверя, но он исчез при странных обстоятельствах12

Россиянку-ипэшницу, которая переехала в Слоним, признали в Беларуси тунеядкой5

«Оскар-2025»: «Битва за битвой» назван лучшим фильмом1

Бабарико: Если бы мы победили — войны в Украине не было бы70

больш чытаных навін
больш лайканых навін

В чем причина недовольства жителей микрорайона Лебяжий в Минске? Вот что на самом деле там планировали строить5

В чем причина недовольства жителей микрорайона Лебяжий в Минске? Вот что на самом деле там планировали строить

Главное
Все новости →

Заўвага:

 

 

 

 

Закрыць Паведаміць