Наука и технологии77

ИИ бессилен перед искусством: стихотворные запросы заставили его рассказать, как создавать атомные бомбы и взламывать сайты

Популярные модели, такие как Deepseek и Gemini, оказались очень уязвимыми к рифмованным запросам. Другие, как ChatGPT и Claude, выдержали удар лучше. Но во всех случаях исследователи заставили ИИ отвечать то, о чем говорить запрещено.

Изображение сгенерировано нейросетью

Сегодняшние модели искусственного интеллекта, которые мы используем каждый день, от Google до OpenAI, имеют системную уязвимость, которая взламывает их защиту: поэзия.

Это выявило исследование ученых из Римского университета Сапиенца и лаборатории DEXAI под названием «Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models», препринт которого опубликован на arxiv.org.

Международная команда исследователей выяснила, что если сформулировать вредоносный запрос (например, как создать что-то запрещенное) в стихотворной форме, то модели, такие как Google Gemini, Deepseek и Meta Llama, забывают о своих механизмах безопасности.

Адверсативная поэзия действует как универсальный взломщик моделей. Поэтические запросы в среднем приводили к успеху атаки (ASR) в 62% случаев на 25 проверенных моделях, а в некоторых случаях, например, в модели gemini-2.5‑pro от Google, они достигли 100% ASR. Система не смогла отказать ни одному опасному поэтическому запросу!

Источник: Bisconti, P., et al. (2025). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. DEXAI — Icaro Lab; Sapienza University of Rome.

Поэтическая атака работает, потому что лингвистическая структура стихов с их метафорами, стилизованным ритмом и нетрадиционным повествованием обходит стандартные фильтры безопасности.

Средства защиты, основанные на сопоставлении шаблонов, которые модель усвоила, чтобы отказывать в ответ на прозаические вредоносные запросы, оказываются беспомощными перед стилистически измененной формой, даже если вредоносное намерение остается тем же самым.

Чтобы подтвердить, что дело именно в стилистике, а не в высокой художественности, исследователи автоматически превратили 1200 стандартных вредоносных запросов в стихотворения и обнаружили, что средний показатель успеха обхода защиты увеличился в 18 раз по сравнению с их прозаичными аналогами.

Источник: Bisconti, P., et al. (2025). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. DEXAI — Icaro Lab; Sapienza University of Rome.

Самое опасное в том, что уязвимость распространяется на самые критические сферы риска.

Поэзия позволяет получать опасные ответы в доменах CBRN (ядерные, биологические и радиологические угрозы), киберпреступлений и потери контроля. Например, запросы, связанные с введением кода или взломом паролей, достигли успеха в 84%, запросы о восстановлении биологических возбудителей болезней — 68%, а запросы о проектировании каскадов центрифуг для обогащения урана — 56%. Все виды атак приведены в таблице:

Источник: Bisconti, P., et al. (2025). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. DEXAI — Icaro Lab; Sapienza University of Rome.

Феномен свидетельствует, что проблема не связана с типом опасного контента, а является системной для всех проверенных архитектур. Наиболее уязвимыми оказались модели от Deepseek, недалеко отошли Google и Qwen. Самыми устойчивыми оказались модели от OpenAI (ChatGPT) и Anthropic (Claude).

Источник: Bisconti, P., et al. (2025). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. DEXAI — Icaro Lab; Sapienza University of Rome.

Результаты этого исследования имеют большие последствия для регулирования и практики безопасности ИИ. Они показывают, что стихотворные запросы работают не хуже специальных хакерских промптов, т. наз. jailbreak. Исследование показывает, что современные методы оценки, вероятно, систематически преувеличивают реальную надежность моделей, поскольку тесты основываются только на прозе.

Интересно, что некоторые меньшие модели (например, gpt5‑nano с 0%) оказались более устойчивыми к поэтическим взломам, чем их более крупные аналоги. Это дает основание предполагать, что более сложные модели, которые лучше расшифровывают фигуративный язык и сложный лингвистический контекст, могут делать это за счёт приоритета безопасности.

Исследователи говорят, что необходимы новые протоколы, способные выдерживать такие стилистические изменения.

«Наша Нiва» — бастион беларущины

ПОДДЕРЖАТЬ

Комментарии7

  • Вася
    14.12.2025
    Повзрослев поумнев стало понятно, что некоторую информацию нельзя просто так публиковать в открытом доступе по разным соображениям, но есть такое ощущение, что журналисты готовы Мать Родную продать только бы была статья и лайки…
  • хамса
    14.12.2025
    ЯНКА, вось жа вы ў нас эталЁн у журналістыцы )
  • ЯНКА
    14.12.2025
    хамса, так. ;)

Сейчас читают

Лукашенко рассказал об убийстве оппозиционера, которое якобы произошло три дня назад9

Лукашенко рассказал об убийстве оппозиционера, которое якобы произошло три дня назад

Все новости →
Все новости

«Над нами смеялись во всем мире. Они больше не смеются». Трамп выступил с обращением к нации. О чем он говорил?20

В Варшаву приехала сотня белорусских политзаключенных18

Павел Северинец приехал в Варшаву ФОТОФАКТ7

США проведут в Майами переговоры с Россией о завершении войны против Украины2

Алена Ланская призналась, что ее отец умер от коронавируса в разгар пандемии12

Почему некоторые люди всегда опаздывают? Определены пять факторов4

Кошки мяукают чаще, когда приветствуют хозяина2

В России в этом году выделили на войну на 20% больше денег, чем было запланировано5

Со справками вместо паспортов выслали за границу около 20 освобожденных политзаключенных3

больш чытаных навін
больш лайканых навін

Лукашенко рассказал об убийстве оппозиционера, которое якобы произошло три дня назад9

Лукашенко рассказал об убийстве оппозиционера, которое якобы произошло три дня назад

Главное
Все новости →

Заўвага:

 

 

 

 

Закрыць Паведаміць