Гэта ў будучыні пойдзе на карысць развіцця тэхналогіяў распазнавання беларускага маўлення, адкрые мноства выдатных сучасных магчымасцяў і дакажа, што ў нашай мовы ёсць будучыня!

Працэс надзвычай просты: 

  1. Трэба зайсці на старонку і націснуць на мікрафон!
  2. Пачаць начытваць сказы. Можна з тэлефона, можна без рэгістрацыі. 
  3. Таксама можна правяраць ужо начытаныя іншымі людзьмі сказы, што таксама важна.

«Тэхналагічныя гіганты не інвестуюць у распазнаванне беларускай мовы і мы застаемся без істотнай тэхналогіі, без якой нашай мове будзе яшчэ складаней канкураваць. Калі мы не назбіраем дадзеныя самі, за нас гэта ніхто не зробіць»,

— кажа Аляксей Гур’янаў, ІТ дырэктар кампаніі ТКП-Софт, якая вырашыла дапамагчы напрацаванымі тэхналогіямі ў распазнаванні беларускага маўлення.

Дзеля актывізацыі беларускай мовы ў міжнародным праекце Mozilla Common Voice неабходным мінімумам з’яўляліся 5000 сказаў. Камандзе say.by атрымалася зацвердзіць 85’000.

Кіраваў гэтым працэсам Аляксандр Трафімаў: «Мы пайшлі праз паўаўтаматычны шлях. З беларускай вікіпедыі намі было выгружана блізу 85’000 сказаў. Далей адбылася праверка выпадковай падвыбаркі ў 4’000 сказаў мовазнаўцамі-валанцёрамі, за што ім асабісты і асаблівы дзякуй! Гэта дазволіла мэйнтэйнерам Mozilla Common Voice актывізаваць беларускую мову і распачаць працэс агучвання!»

Акрамя магчымасці рэалізаваць праект say.by «Мова прафесіі» прысвечаны трэніроўцы жывой размовы і пацверджанню валодання беларускай мовай, набор запісаў галасоў стане даступным навукоўцам, праграмістам, ІТ-кампаніям і ўсім ахвотным рабіць праекты, звязаныя з распазнаваннем і сінтэзаваннем беларускага маўлення, дадаць падтрымку ў існыя праграмы і мабільныя дадаткі.

«Аўтаматычныя сістэмы распазнавання маўлення пераўтвараюць маўленне ў тэкст. Напрыклад, журналіст запісаў на дыктафон інтэрв’ю, і праз праграму распазнавання маўлення з дапамогай некалькіх клікаў ён атрымае з гуказапісу тэкст. 

З дапамогай распазнавання маўлення з’явіцца магчымасць кіраваць тэхнікай голасам па-беларуску — святлом, тэмпературай, мікрахвалёўкай, мабільным тэлефонам замест націскання кнопак.

Ніводная з наяўных інфармацыйных сістэмаў не распазнае беларускую мову! У спісе моваў распазнавання маўлення Google таксама няма беларускай. У 2018-2020 гадах у нашай лабараторыі быў створаны маўленчы корпус на 70 гадзін для трэніроўкі сістэмы распазнавання маўлення па-беларуску, на яго аснове быў распрацаваны першы прататып сістэмы распазнавання беларускага маўлення.

А зараз ёсць магчымасць ажыццявіць наступны крок — зрабіць якасны вялікі беларускі маўленчы корпус, які дасць магчымасць кожнаму ахвотнаму зрабіць сваю сістэму распазнавання беларускага маўлення і выкарыстаць яе для навуковых ці камерцыйных мэтаў!» — сцвярджае навуковец АІПІ НАН Беларусі, кандыдат тэхнічных навук Юрась Гецэвіч.

Да марафону агучвання тэкстаў далучыліся і супрацоўнікі кампаній АЗС А-100, Піваварнай кампаніі Аліварыя, TCP-Soft, ActiveCloud, Jet BI, Інстытут мовазнаўства імя Якуба Коласа, Шпаркі Лось, Хуткі Вожык. Арганізатары запрашаюць да ўдзелу ўсе кампаніі і супольнасці, бо гэта не толькі цікавая, але і важная актыўнасць для ўсіх беларусаў.

Падчас агучвання ваш голас мусіць гучаць натуральна, нібы адбываецца звычайная размова. Памятайце і пра свой беларускі акцэнт — цвёрдае ч, фрыкатыўнае г, «дзеканне» і «цеканне», «мяккасць» пры спалучэнні зычных, напрыклад «свет» чытаецца як «сьвет», «насенне» — як «насеньне».

Пачаць працэс, паглядзець дадатковыя парады, а таксама апошнюю статыстыку па колькасці агучаных сказаў можна на сайце Mova.pro

Хочаш падзяліцца важнай інфармацыяй ананімна і канфідэнцыйна?