Jak heta pracuje: mašynny pierakład z roznych movaŭ

7 studzienia 1954 hoda ŭ štab-kvatery karparacyi IBM u Ńju-Jorku adbyŭsia tak zvany «Džordžtaŭnski ekśpierymient», padčas jakoha byŭ paśpiachova prademanstravany całkam aŭtamatyčny pierakład niekalkich dziasiatkaŭ roznych skazaŭ z ruskaj movy na anhielskuju.

06.11.2017 / 11:58

Toj pierakład byŭ vielmi prosty: u słoŭniku było ŭsiaho 250 słovaŭ i 6 praviłaŭ, tamu sistema mahła pierakłaści tolki niekalki samych prymityŭnych fraz. Ale metaj było pryciahnieńnie ŭvahi da mašynnaha pierakładu i demanstracyja jaho pierśpiektyŭnaści.

Ciapier, dziakujučy internetu, kožnaje nieznajomaje słova ci skaz možna za niekalki siekund pierakłaści na rodnuju movu, i hety pierakład atrymajecca davoli dakładny. Što ž źmianiłasia z tych časoŭ? Jaki ciapier pryncyp pracy aŭtamatyčnych pierakładčykaŭ i jakaja budučynia ŭ žyvych pierakładčykaŭ-prafiesijanałaŭ?

Sučasnyja anłajn-pierakładčyki (samy viadomy ź jakich — Google Translate) vykarystoŭvajuć statystyčny mašynny pierakład, u pracesie jakoha kampjutarnaja prahrama analizuje vielizarny masiŭ tekstaŭ, pierakładzienych ludźmi, i pierakładaje słoŭnik i hramatyku adnoj movy na inšuju ŭ ličbavym farmacie. Hučyć składana? Davajcie raźbiracca.

Vielizarny masiŭ tekstaŭ składajecca ź vialikaj kolkaści moŭnych par — tekstaŭ, jakija majuć dźvie dakładnyja moŭnyja viersii (pierakładzienyja čałaviekam). U jakaści takich tekstaŭ zvyčajna vykarystoŭvajucca aficyjnyja dakumienty šmatmoŭnych krain, dzie pierakład dakumientacyi jość abaviazkovym na ŭsie dziaržaŭnyja movy. Takija pierakłady zaŭsiody najbolš daskanałyja, bo dziaržaŭnyja dakumienty vyrašajuć los asobnych ludziej i krainy ŭ cełym. Taksama vielmi karysnymi akazalisia šmatmoŭnyja dakumienty, jakija vypuskajucca AAN. 

Analizujučy pary roznych tekstaŭ, sistema «vučycca», zasvojvajučy z kožnym razam usio bolš novych praviłaŭ. Takim čynam budujecca madel movy.

Taksama kožnaja sistema aŭtamatyčnaha pierakładu maje madel pierakładu — «słoŭnik», u jakim dla ŭsich słovaŭ i fraz na adnoj movie pieraličanyja mahčymyja pierakłady na inšuju movu z ukazańniem vierahodnaści hetych pierakładaŭ. Madeli pierakładu dla kožnaj pary movaŭ utrymlivajuć miljony par słoŭ i słovazłučeńniaŭ.

Kali vy pierakładajecie z anhlijskaj movy na biełaruskuju, zadziejničajucca dźvie moŭnyja pary: biełaruskaja-ruskaja i ruskaja-anhlijskaja. To bok spačatku tekst pierakładajecca s anhlijskaj na ruskuju, a potym — z ruskaj na biełaruskuju.

Taki šlach najbolš racyjanalny, bo dakumientaŭ, jakija b mieli daskanałyja anhlijskuju i biełaruskuju viersii — niašmat, i prosty pierakład z anhlijskaj na biełaruskuju atrymlivaŭsia b vielmi niajakasnym praź niedastatkovuju «navučanaść» sistemy.

Niepasredna pierakładam zajmajecca dekodar — ałharytm, jaki pravodzić analiz tekstu i dla kožnaha słova padbiraje ŭsie varyjanty pierakładu, uparadkoŭvajučy ich pa źmianšeńni vierahodnaści. Zatym usie atrymanyja varyjanty dekodar aceńvaje z dapamohaj madeli movy na častatu ŭžyvańnia i vybiraje prapanovu z najlepšym spałučeńniem vierahodnaści i častaty.

Na žal, ciapier niama servisu aŭtamatyčnaha pierakładu, jaki b moh pierakłaści tekst z takoj ža dakładnaściu, jak i čałaviek-pierakładčyk. Ale ŭžo ciapier niekatoryja kampanii ŭkaraniajuć u mašynny pierakład niejronnyja sietki, jakija značna palapšajuć jaho jakaść.

Tamu možna mierkavać, što ź ciaham času śpiecyjalisty-pierakładčyki buduć patrebnyja tolki dla stvareńnia składanych mastackich pierakładaŭ, što značna skarocić kolkaść ludziej, zaniatych u hetaj śfiery. Ale naŭrad ci heta vielmi blizkaja pierśpiektyva. A jak ličycie vy?

Čytajcie taksama: Nastupnaja revalucyja ŭ infarmatycy — niejronnyja sietki (raspaviadajem pra niejronnyja sietki prostymi słovami)

Ilja Paraskievič