«Мужчына карыстаецца сваім ноўтбукам, пакуль яго кот глядзіць на экран».
Даследчыкі Стэнфардскага ўніверсітэта (ЗША) распрацавалі алгарытм распазнання на фота аб’ектаў і узаемадзеянняў між імі, распавядае The Verge.
Раней алгарытмы ўмелі распазнаваць асобныя аб’екты ці людзей (нават са спіны), а таксама іх уласцівасці кшталту колера. Стэнфардскі алгарытм NeuralTalk умее апісваць фота поўнымі сказамі — амаль як жывы чалавек.
Тэхналогія была апісаная яшчэ ў 2014 годзе, але на яе звярнулі ўвагу толькі пасля дэманстрацыі ў твітары аналітыка Ціма Макнамары. «Мужчына карыстаецца сваім ноўтбукам, пакуль яго кот глядзіць на экран», — апісаў алгарытм фота, на якім на самой справе мужчына сядзіць з ноўтбукам, а кот, які ляжыць у яго на каленах, глядзіць на экран.
Алгарытм выдатна (ці амаль выдатна) спрацаваў і на некаторых іншых фота:
Іншыя прыклады працы алгарытма можна пабачыць на сайце Стэнфардскага ўніверсітэта. У радку пошуку можна набраць ключавое слова — напрыклад, па запыце «horse» выдадуцца ўсе фота з канямі.
Алгарытм не толькі апісвае аб’екты, іх уласцівасці і ўзаемасувязі, але і падбірае найбольш імаверны варыянт апісання. Напрыклад, сярод альтэрнатыўных сказаў пра апошняе фота былі «Фота тэлевізара на яшчэ адным тэлевізары» (пазначаны праграмай як памылковы) і «Мужчына ў паліто сядзіць сонны каля старога партатыўнага тэлевізара ў пакоі з буфетным столікам».
NeuralTalk працуе на аснове нейронных сетак — так жа, як нядаўні алгарытм Google, што маляваў фантастычныя карціны. Алгарытм параўноўвае фрагменты фота з карцінкамі, што «бачыў» раней, а затым звязвае іх словамі-дапаможнікамі ў сказ, падобны да чалавечай мовы.
Каментары