Мова44

Гаварыць па-беларуску. Зроблены важны крок у штучным сінтэзе беларускага маўлення

На сайце праекта «Беларускі N-корпус», дзе над стварэннем Нацыянальнага корпуса беларускай мовы працуе сектар камп'ютарнай лінгвістыкі Інстытута мовазнаўства імя Якуба Коласа НАН Беларусі, з’явіўся першы сінтэзатар беларускага маўлення.

Новая магчымасць пашырыць гарызонты распаўсюджвання беларускай мовы. 

Спецыялісты адзначаюць, што даўно шукалі магчымасць стварыць сінтэзатар і цяпер свае першыя вынікі ў гэтым кірунку зрабілі даступнымі для ўсіх у раздзеле «Фанетычны канвертар і сінтэз маўлення» на сайце «Беларускага N-корпуса». 

Сінтэзатар зроблены па слядах беларускамоўнай мадэлі для агучвання тэксту «Беларускі тэкст-у-маўленне» і выкарыстоўвае тыя самыя запісы для навучання, якія былі сабраныя праектам donar.by. На сайце праекта donar.by можна як запісаць («ахвяраваць») свой голас, так і праверыць ужо зробленыя запісы. Ухваленыя запісы трапляюць у набор даных Common Voice, які распаўсюджваецца пад свабоднай ліцэнзіяй і закліканы дапамагаць распрацоўшчыкам ствараць прылады для распазнавання маўлення. Менавіта гэтай магчымасцю і скарысталіся навукоўцы з Акадэміі навук.

Дэманстрацыя сінтэзу беларускай мовы.

Цяпер на сайце «Беларускага N-корпуса» можна зрабіць фанетычную транскрыпцыю любога беларускага тэксту паводле правілаў Міжнароднага фанетычнага алфавіта (IPA), або так званай «школьнай транскрыпцыі», якая шырока распаўсюджана ў айчынным мовазнаўстве. Для большасці слоў канвертар здольны самастойна падабраць і паставіць націскі для карэктнай сінтэзацыі маўлення, для больш рэдкіх словаў, напрыклад, уласных назваў, ёсць магчымасць паставіць націск самастойна. У цяперашняй тэставай версіі максімальны памер тэксту для агучвання абмежаваны 2000 знакаў.

Прыклад апрацоўкі канвертарам тэксту «Наша Ніва» — першая беларуская газета з карцінкамі»

Пакуль што сінтэзаванае маўленне гучыць досыць штучна, механічна, але пры гэтым цалкам карэктна. Сінтэзатары іншых буйных моў, якія вядомыя ўжо не першы год, ад пачатку ўсе грашылі на некарэктнае прачытанне слоў і памылковыя націскі — гэты досвед, відаць, быў улічаны. Беларускія спецыялісты абяцаюць працягваць працу далей і заклікаюць далучацца ўсіх, хто гатовы да супрацоўніцтва.

«Цяпер мы маем досвед у навучанні сінтэзу маўлення і гатовыя працягваць працу далей. Для гэтага нам трэба давесці да ладу фанетычны канвертар, запісаць у добрай якасці дыктараў з добрымі галасамі і правільнай фанетыкай, падрыхтаваць гэтыя запісы для навучання сінтэзатару маўлення», — адзначаюць распрацоўшчыкі.

У сацсетках гэтую навіну ўспрынялі надзвычай станоўча, беларусы адразу прыкінулі, што развіццё гэтай тэхналогіі дазволіць, напрыклад, беларусізаваць галасавых памочнікаў, аўтаматызаваць стварэнне субцітраў на YouTube і распазнаваць беларускамоўныя галасавыя паведамленні ў месенджарах, чаго цяпер пазбаўлены.

Каментары4

  • Беларусінчык
    10.07.2023
    ДЗЯКУЙ!!!
  • донарка ў donar.by
    11.07.2023
    як прыемна бачыць такія навіны, ведаючы, што і вы ўклаліся ў гэтую добрую справу! выдатная праца, N-корпус, прывітаньні ўсім донарам і донаркам donar.by / Common Voice Belarus!
  • Gubaz
    11.07.2023
    Дзякуй за артыкул. Я вельмі доўга такое шукаў

Лукашэнка стаў прадзедам19

Лукашэнка стаў прадзедам

Усе навіны →
Усе навіны

Стыльная карэянка, што скарыла сэрцы гледачоў Алімпіяды, трапіла ў спіс «100 жанчын 2024 года»

Чым цяпер жыве доктар Мартаў?5

Зяленскі адмовіўся назваць лічбу ўкраінскіх вайскоўцаў, якія загінулі з пачатку вайны 3

УЕФА па выніках матча з мінскім «Дынама» аштрафаваў «Легію» за антылукашэнкаўскія плакаты фанатаў1

Новая вакцына ад ВІЧ прайшла фінальнае выпрабаванне. Эфектыўнасць — рэкордныя 99%8

У класных журналах будуць звесткі аб месцы працы бацькоў3

У Тбілісі пратэстоўцаў рассеялі на праспекце Руставелі6

«Будзе здымаць маштабныя праекты з сабой у галоўнай ролі». Што думаюць пра новага міністра культуры Чарнецкага яго калегі?11

Шольц расказаў, што было ў яго таямнічай валізцы6

больш чытаных навін
больш лайканых навін

Лукашэнка стаў прадзедам19

Лукашэнка стаў прадзедам

Галоўнае
Усе навіны →