Беларуская мова99

Нейросети все еще спотыкаются на белорусской речи. Белорусы хотят подарить искусственному интеллекту идеальный голос

Технологии синтеза речи стремительно захватывают мир, но синтезированный белорусский язык до сих пор звучит с ощутимыми дефектами. Даже самые продвинутые модели спотыкаются на наших ударениях и фонетике. Белорусы запустили проект Sonora по созданию первого студийного датасета, который должен навсегда изменить звучание цифрового белорусского языка.

Студия звукозаписи. Иллюстративный снимок. Фото: Freepik / DC Studio

Важный технологический прорыв в синтезе белорусской речи произошел еще весной 2025 года, благодаря внедрению корпорацией Google своей новой модели Gemini, которая научилась качественно распознавать белорусскую речь (STT — Speech-to-Text), благодаря чему, например, на ютубе наконец появились автоматические белорусскоязычные субтитры.

Этому во многом поспособствовали сами белорусы через волонтерский проект Donar.by, собрав тысячи часов живых голосов.

Благодаря этой гигантской базе данных, сегодня именно голос от Google является наиболее близким к правильному звучанию белорусского языка. Модель хорошо понимает контекст и имеет огромный словарный запас, оставляя далеко позади конкурентов из OpenAI или ElevenLabs, чьи попытки заговорить по-белорусски далеки от естественной речи.

Но распознать речь — это только половина дела. Когда же нейросети приходится самой озвучивать текст (TTS — Text-to-Speech), она систематически ошибается в редко используемых словах и не может справиться с омографами — словами, которые пишутся одинаково, но имеют разный смысл в зависимости от ударения.

Когда вместо правильного «спарыша́мі» искусственный интеллект уверенно выдает «спары́шамі», это сразу выдает его синтетическую природу для носителя языка. Сам носитель может и не знать значение слова, не знать где в нем ставится ударение, но языковая интуиция ему подсказывает, что что-то не то.

К тому же такие ошибки, пусть и редкие в моделях Google, оказывают медвежью услугу тем, кто только начинает осваивать белорусский язык, закрепляя искаженное произношение.

Добавьте сюда проблемы с передачей мягкости согласных, специфическим звучанием «ў», аффрикатами «дз» и «дж» — слушать и воспринимать длинные тексты в таком исполнении пока физически тяжело.

Голос из пробирки

Проблема не в том, что алгоритмы недостаточно умны — в случае с белорусским языком им просто не на чем учиться. Чтобы искусственный интеллект усвоил правильную интонацию, ритм и ударения, ему недостаточно аудио с ютуба или подкастов, где качество звука всегда разное, а дикция людей несовершенна.

Для создания естественного синтезированного голоса требуется специальный, кристально чистый студийный датасет. Это тысячи часов профессиональной начитки, где тексты специально сконструированы лингвистами таким образом, чтобы охватить все возможные фонетические сочетания и показать модели, как правильно ставить ударения в сложных контекстах. Сегодня в мире просто не существует такого открытого массива данных для белорусского языка.

Именно эту пустую нишу и собирается заполнить проект Sonora. Это волонтерская инициатива, которую продвигают проектный менеджер Анна Маклакова, инженер-лингвист Владислав, команда разработчиков TuteishyGPT и ряд специалистов, чьи имена не называются из соображений безопасности. Их цель — не создать закрытый коммерческий продукт, а сделать фундаментальную базу, которую смогут использовать все.

Как хотят сделать идеальный голос

Сейчас команда находится на этапе сбора средств, планируя собрать 13 000 евро на проект. Наибольшая часть бюджета пойдет на аренду профессиональной студии и оплату труда дикторов с идеальным произношением. Остальное — на услуги звукорежиссеров и кропотливую работу лингвистов, которые будут готовить и размечать текстовый корпус, и другие расходы.

Результатом этой работы станет полностью открытый датасет с публичной лицензией. На его основе авторы проекта планируют доработать уже существующую отечественную модель BexTTS, выведя ее на принципиально новый уровень.

Команда ищет прямые контакты с представителями Google, OpenAI, Meta и Speechify, чтобы предложить им готовый и качественный материал. В логике глобальных корпораций все просто: если им дают готовый инструмент для улучшения продукта на локальном рынке, они с радостью его интегрируют.

Если собрать всю сумму сразу не получится, авторы проекта обещают начать запись на те средства, которые уже будут на счетах, так как даже частичное пополнение базы — это практический шаг вперед.

От учебников до навигаторов

Присутствие белорусского языка в технологиях сегодня — это вопрос его выживания в принципе. Качественный синтез речи кардинально меняет правила игры в создании контента.

Это означает, что издание белорусских аудиокниг или озвучивание длинных статей больше не будет требовать огромных бюджетов и недель работы в студии. Это возможность для школьников и студентов слушать учебники, а для людей с нарушениями зрения или дислексией — получить полноценный доступ к белорусскоязычной информации.

Это база для создания отечественных голосовых помощников, чат-ботов и навигаторов, которые не будут разговаривать с нами поломанной гугловской речью. Наконец, это удобный инструмент для огромной белорусской диаспоры, которая хочет сохранить языковую среду для своих детей за границей.

«Наша Нiва» — бастион беларущины

ПОДДЕРЖАТЬ

Комментарии9

  • .
    19.04.2026
    1, гугл пакрысе адмяняе беларускую мову на карысць украінскай. Запыты па-беларуску ўсё часцей выдаюць украінскія спасылкі і прапановы зрабіць запыт па-украінску без памылак.
  • беларуская мадэль маўлення Bextts
    19.04.2026
    каб не пераскоквала на іншыя мовы, можна скарыстацца існуючай беларускай мадэллю

    https://huggingface.co/spaces/archivartaunik/Bextts
  • Скептык
    19.04.2026
    А нахалеру нам ідэальны штучны голас? Каб гэб'ё і ментаўё рабіла правакацыі на чысцюткай беларускай мове? Тэхнары такія тэхнары - ім абы нешта скрэацівіць, каб не адставаць ад сіліконавай даліны. а колькі шкоды гэтыя "інструменты" могуць потым нарабіць, пра гэта яны ня думаюць.

Сейчас читают

На протестантский фестиваль в «Чижовка-Арену» едет американский проповедник Франклин Грэм. Вместе с ним ждут Коула с женой14

На протестантский фестиваль в «Чижовка-Арену» едет американский проповедник Франклин Грэм. Вместе с ним ждут Коула с женой

Все новости →
Все новости

6 военных машин, 20 машин сопровождения. Приезд Лукашенко в резиденцию на Гомельщине попал на спутниковый снимок16

«Пока заявок ноль». В вильнюсской школе Stembridge рассказали, как идет набор в детсадовскую группу с белорусским языком обучения14

«Обливали краской памятники, вырывали кресты». Подростки повредили более 50 могил на Радуницу. Их задержал спецназ4

Беларусь вошла в мировой антитоп-5 по числу рождений20

Польский министр иностранных дел встречается с Джоном Коулом4

Соловьев извинился перед Викторией Боней, но отказался извиняться перед Мелони5

Тейлор Свифт добивается правовой защиты фразы «Привет, это Тейлор Свифт»

Власти Беларуси просили Россию передать им украинские месторождения на Донбассе. Те еще даже не оккупированы17

Сколько в Беларуси живет участников Великой Отечественной войны?7

больш чытаных навін
больш лайканых навін

На протестантский фестиваль в «Чижовка-Арену» едет американский проповедник Франклин Грэм. Вместе с ним ждут Коула с женой14

На протестантский фестиваль в «Чижовка-Арену» едет американский проповедник Франклин Грэм. Вместе с ним ждут Коула с женой

Главное
Все новости →

Заўвага:

 

 

 

 

Закрыць Паведаміць