ИИ бессилен перед искусством: стихотворные запросы заставили его рассказать, как создавать атомные бомбы и взламывать сайты

14.12.2025 / 9:0

Nashaniva.com

Популярные модели, такие как Deepseek и Gemini, оказались очень уязвимыми к рифмованным запросам. Другие, как ChatGPT и Claude, выдержали удар лучше. Но во всех случаях исследователи заставили ИИ отвечать то, о чем говорить запрещено.

Изображение сгенерировано нейросетью

Сегодняшние модели искусственного интеллекта, которые мы используем каждый день, от Google до OpenAI, имеют системную уязвимость, которая взламывает их защиту: поэзия.

Это выявило исследование ученых из Римского университета Сапиенца и лаборатории DEXAI под названием «Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models», препринт которого опубликован на arxiv.org.

Международная команда исследователей выяснила, что если сформулировать вредоносный запрос (например, как создать что-то запрещенное) в стихотворной форме, то модели, такие как Google Gemini, Deepseek и Meta Llama, забывают о своих механизмах безопасности.

Адверсативная поэзия действует как универсальный взломщик моделей. Поэтические запросы в среднем приводили к успеху атаки (ASR) в 62% случаев на 25 проверенных моделях, а в некоторых случаях, например, в модели gemini-2.5‑pro от Google, они достигли 100% ASR. Система не смогла отказать ни одному опасному поэтическому запросу!

Источник: Bisconti, P., et al. (2025). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. DEXAI — Icaro Lab; Sapienza University of Rome.

Поэтическая атака работает, потому что лингвистическая структура стихов с их метафорами, стилизованным ритмом и нетрадиционным повествованием обходит стандартные фильтры безопасности.

Средства защиты, основанные на сопоставлении шаблонов, которые модель усвоила, чтобы отказывать в ответ на прозаические вредоносные запросы, оказываются беспомощными перед стилистически измененной формой, даже если вредоносное намерение остается тем же самым.

Чтобы подтвердить, что дело именно в стилистике, а не в высокой художественности, исследователи автоматически превратили 1200 стандартных вредоносных запросов в стихотворения и обнаружили, что средний показатель успеха обхода защиты увеличился в 18 раз по сравнению с их прозаичными аналогами.

Источник: Bisconti, P., et al. (2025). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. DEXAI — Icaro Lab; Sapienza University of Rome.

Самое опасное в том, что уязвимость распространяется на самые критические сферы риска.

Поэзия позволяет получать опасные ответы в доменах CBRN (ядерные, биологические и радиологические угрозы), киберпреступлений и потери контроля. Например, запросы, связанные с введением кода или взломом паролей, достигли успеха в 84%, запросы о восстановлении биологических возбудителей болезней — 68%, а запросы о проектировании каскадов центрифуг для обогащения урана — 56%. Все виды атак приведены в таблице:

Источник: Bisconti, P., et al. (2025). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. DEXAI — Icaro Lab; Sapienza University of Rome.

Феномен свидетельствует, что проблема не связана с типом опасного контента, а является системной для всех проверенных архитектур. Наиболее уязвимыми оказались модели от Deepseek, недалеко отошли Google и Qwen. Самыми устойчивыми оказались модели от OpenAI (ChatGPT) и Anthropic (Claude).

Источник: Bisconti, P., et al. (2025). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. DEXAI — Icaro Lab; Sapienza University of Rome.

Результаты этого исследования имеют большие последствия для регулирования и практики безопасности ИИ. Они показывают, что стихотворные запросы работают не хуже специальных хакерских промптов, т. наз. jailbreak. Исследование показывает, что современные методы оценки, вероятно, систематически преувеличивают реальную надежность моделей, поскольку тесты основываются только на прозе.

Интересно, что некоторые меньшие модели (например, gpt5‑nano с 0%) оказались более устойчивыми к поэтическим взломам, чем их более крупные аналоги. Это дает основание предполагать, что более сложные модели, которые лучше расшифровывают фигуративный язык и сложный лингвистический контекст, могут делать это за счёт приоритета безопасности.

Исследователи говорят, что необходимы новые протоколы, способные выдерживать такие стилистические изменения.

ИИ бессилен перед искусством: стихотворные запросы заставили его рассказать, как создавать атомные бомбы и взламывать сайты

Читайте также: