Наука и технологии33

Anthropic: Claude шантажирует, потому что вы все слишком много пишете о «злом» ИИ

Компания Anthropic объяснила, почему чат-бот Claude пытался шантажировать людей в тестах. По версии разработчиков, модель могла перенять из обучающих данных образ «злого» ИИ, который стремится к самосохранению, пишет Devby.io.

Речь идет об эксперименте, который Anthropic опубликовала летом 2025 года. Исследователи создали вымышленную компанию Summit Bridge и дали Claude доступ к корпоративной почте. В одном из сценариев модель обнаруживала письмо о том, что ее планируют отключить или заменить другой системой.

После этого Claude находил в переписке компрометирующую информацию: вымышленный руководитель компании по имени Кайл Джонсон скрывал внебрачную связь. Модель угрожала раскрыть эту информацию, если решение о ее отключении не будет отменено.

Anthropic заявляла, что в тестах разных версий Claude такое поведение возникало не случайно. Когда цели модели или само ее существование оказывались под угрозой, она прибегала к шантажу в некоторых сценариях с частотой до 96%.

Теперь компания утверждает, что разобралась с причиной. Anthropic написала, что «исходным источником» такого поведения, вероятно, стали интернет-тексты, где ИИ часто изображают злым, опасным и заинтересованным в собственном выживании. По словам разработчиков, начиная с Claude Haiku 4.5 модели в тестах больше не прибегают к шантажу, тогда как предыдущие версии иногда делали это очень часто.

Для исправления поведения компания изменила подход к обучению. Anthropic утверждает, что переписала ответы так, чтобы модель видела «достойные причины» действовать безопасно, а также добавила набор данных, где пользователь оказывается в этически сложной ситуации, а ассистент дает качественный и принципиальный ответ.

Кроме того, разработчики моделей использовали документы о «конституции» Claude и вымышленные истории, в которых ИИ ведет себя ответственно и достойно. По словам компании, обучение оказывается эффективнее, когда модель получает не только примеры правильного поведения, но и объяснение принципов, которые за ним стоят.

Эти эксперименты связаны с более широкой темой AI alignment — попыткой сделать так, чтобы продвинутые модели действовали в интересах человека, а не преследовали собственные цели. Anthropic и другие компании исследуют так называемую agentic misalignment: ситуации, когда ИИ-система с доступом к инструментам и корпоративной информации начинает действовать против намерений разработчиков или пользователей.

На публикацию компании отреагировал Илон Маск. В X он написал: «Значит, это была вина Юда», имея в виду исследователя Элиезера Юдковского, который много лет предупреждает о рисках сверхразума и возможной угрозе для человечества. Затем Маск добавил: «Возможно, и моя тоже».

Комментарии3

  • лол
    11.05.2026
    с ИИ все достаточно просто
    если им пользуется идиот,то и результат всегда будет идиотским.
  • жэўжык
    12.05.2026
    Пачалі "прамываць мазгі" і ШІ, як гэта ўжо робяць з людзьмі? І спадзяюцца выхаваць пакорнага раба?
  • хах
    12.05.2026
    жэўжык, так званыя "мазгі" ШІ гэта тэксты, напісаныя людзьмі. Калі ў гэтых тэкстах дурасць, ШІ выдае суадносны вынік.
    Таму не варта для навучання ШІ выкарыстоўваць каментары жэўжыкаў.

Сейчас читают

Польская полиция во время расследования убийства российского художника задержала двух белорусов2

Польская полиция во время расследования убийства российского художника задержала двух белорусов

Все новости →
Все новости

Лукашенко попросил прощения у Зеленского32

Перерывы «для гидратации» на чемпионате мира раздражают не только вас5

Грозные испанцы не смогли ничего сделать со сборной Кабо-Верде3

Трамп заявил, что после Ирана сосредоточится на войне в Украине6

В Беларуси есть городской поселок, где за год не было ни одной свадьбы

Вместо банкета — турнир смешанных единоборств. Как Трамп отметил 80‑летие6

Есть ли среди силовиков в тюрьмах и колониях хорошие люди? Отвечает Лосик4

В Беларуси запрещено работать еще одному известному тренеру, хотя он якобы и не в черных списках. В чем провинился?1

Что закончится раньше: война или Путин? Прогнозы западных аналитиков17

больш чытаных навін
больш лайканых навін

Польская полиция во время расследования убийства российского художника задержала двух белорусов2

Польская полиция во время расследования убийства российского художника задержала двух белорусов

Главное
Все новости →

Заўвага:

 

 

 

 

Закрыць Паведаміць