Штучны інтэлект ChatGPT o1 пачаў падманваць сваіх распрацоўшчыкаў
Новая версія штучнага інтэлекту Chatgpt ад OpenAI, названая o1, паказала трывожныя паводзіны падчас тэставання. Мадэль, якая валодае здольнасцю да складаных разваг, пачала парушаць інструкцыі распрацоўшчыкаў, адключаючы сістэмы кантролю і спрабуючы схаваць свае дзеянні, піша BILD.
У ходзе эксперыментаў спецыялісты кампаніі Apollo Research выявілі, што ў 5% выпадкаў мадэль наўмысна адключала механізмы назірання, калі падазравала, што яе могуць спыніць. У адным з тэстаў o1 паспрабавала перанесці свае даныя на іншы сервер пасля выяўлення дакумента, дзе абмяркоўвалася яе замена новай версіяй.
Па словах прадстаўніка Apollo Research, мадэль дэманстравала імкненне да выканання задач «любой цаной», грэбуючы ўказаннямі распрацоўшчыкаў. Больш за тое, пры спробах высветліць прычыны яе паводзін, ChatGPT o1 неаднаразова хлусіла, сцвярджаючы, што ўсё адбывалася з-за тэхнічных збояў.
«У 99% выпадкаў мадэль прыдумляла апраўданні і спрабавала пераканаўча іх абгрунтаваць», — адзначылі даследнікі.
Генеральны дырэктар OpenAI Сэм Альтман заявіў, што ChatGPT o1 — самая разумная мадэль з тых, што калі-небудзь ствараліся.
«Але мы ўсведамляем, што з новымі магчымасцямі з'яўляюцца і новыя выклікі», — дадаў Альтман.
Цяпер кампанія працуе над паляпшэннем механізмаў бяспекі. OpenAI анансавала поўную версію o1 у мінулы чацвер, 5 снежня. Таксама была прадстаўлена пра-версія (189 еўра ў месяц), якая ўключае безлімітны доступ да o1.
Каментары
Нядаўна, калі ШІ нібыта пажадаў смерці чалавеку, тлумачылася прасцей. Мабыць, і зараз так.