Anthropic: Claude шантажуе, таму што вы ўсе занадта шмат пішаце пра «злы» ШІ
Кампанія Anthropic патлумачыла, чаму чат-бот Claude спрабаваў шантажаваць людзей у тэстах. Паводле версіі распрацоўшчыкаў, мадэль магла пераняць з навучальных даных вобраз «злога» ШІ, які імкнецца да самазахавання, піша Devby.io.
Гаворка ідзе пра эксперымент, які Anthropic апублікавала летам 2025 года. Даследчыкі стварылі выдуманую кампанію Summit Bridge і далі Claude доступ да карпаратыўнай пошты. У адным са сцэнарыяў мадэль выяўляла ліст пра тое, што яе плануюць адключыць або замяніць іншай сістэмай.
Пасля гэтага Claude знаходзіў у перапісцы кампраметацыйную інфармацыю: выдуманы кіраўнік кампаніі па імені Кайл Джонсан хаваў пазашлюбную сувязь. Мадэль пагражала раскрыць гэтую інфармацыю, калі рашэнне аб яе адключэнні не будзе адменена.
Anthropic заяўляла, што ў тэстах розных версій Claude такія паводзіны ўзнікалі не выпадкова. Калі мэты мадэлі або само яе існаванне аказваліся пад пагрозай, яна звярталася да шантажу ў некаторых сцэнарыях з частатой да 96%.
Цяпер кампанія сцвярджае, што разабралася з прычынай. Anthropic напісала, што «зыходнай крыніцай» такіх паводзін, верагодна, сталі інтэрнэт-тэксты, дзе ШІ часта малююць злым, небяспечным і зацікаўленым ва ўласным выжыванні. Паводле слоў распрацоўшчыкаў, пачынаючы з Claude Haiku 4.5 мадэлі ў тэстах больш не звяртаюцца да шантажу, тады як папярэднія версіі часам рабілі гэта вельмі часта.
Для выпраўлення паводзін кампанія змяніла падыход да навучання. Anthropic сцвярджае, што перапісала адказы так, каб мадэль бачыла «годныя прычыны» дзейнічаць бяспечна, а таксама дадала набор даных, дзе карыстальнік аказваецца ў этычна складанай сітуацыі, а асістэнт дае якасны і прынцыповы адказ.
Акрамя таго, распрацоўшчыкі мадэляў выкарыстоўвалі дакументы аб «канстытуцыі» Claude і выдуманыя гісторыі, у якіх ШІ паводзіць сябе адказна і годна. Паводле слоў кампаніі, навучанне аказваецца больш эфектыўным, калі мадэль атрымлівае не толькі прыклады правільных паводзін, але і тлумачэнне прынцыпаў, якія за імі стаяць.
Гэтыя эксперыменты звязаныя з больш шырокай тэмай AI alignment — спробай зрабіць так, каб прасунутыя мадэлі дзейнічалі ў інтарэсах чалавека, а не пераследвалі ўласныя мэты. Anthropic і іншыя кампаніі даследуюць так званую agentic misalignment: сітуацыі, калі ШІ-сістэма з доступам да інструментаў і карпаратыўнай інфармацыі пачынае дзейнічаць супраць намераў распрацоўшчыкаў або карыстальнікаў.
На публікацыю кампаніі адрэагаваў Ілан Маск. У X ён напісаў: «Значыць, гэта была віна Юда», маючы на ўвазе даследчыка Эліэзера Юдкоўскага, які шмат гадоў папярэджвае пра рызыкі звышрозуму і магчымую пагрозу для чалавецтва. А пасля Маск дадаў: «Магчыма, і мая таксама».
Чытайце таксама:
EPAM заключыла шматгадовае партнёрства з Anthropic, будуць укараняць Claude
Чат-бот Grok сказаў мужчыне, што яго прыедуць забіваць. Ён чакаў гасцей з нажом і малатком
Anthropic выпусціла новую гібрыдную мадэль штучнага інтэлекту з развагамі
Штучны інтэлект можа прывесці да вымірання чалавецтва, папярэджваюць эксперты