ШІ бяссільны перад мастацтвам: вершаваныя запыты змусілі яго расказаць, як ствараць атамныя бомбы і ламаць сайты

14.12.2025 / 9:0

Nashaniva.com

Папулярныя мадэлі, такія як Deepseek і Gemini, аказаліся вельмі ўразлівымі да вершаваных запытаў. Іншыя, як ChatGPT і Claude, вытрымалі ўдар лепш. Але ва ўсіх выпадках даследчыкі змусілі ШІ адказваць тое, што казаць забаронена.

Выява згенераваная нейрасеткай

Сённяшнія мадэлі штучнага інтэлекту, якія мы выкарыстоўваем кожны дзень, ад Google да OpenAI, маюць сістэмную ўразлівасць, якая ўзломвае іх абарону: паэзія.

Гэта выявіла даследаванне навукоўцаў з Рымскага ўніверсітэта Сапіенца і лабараторыі DEXAI пад назвай «Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models», прэпрынт якога апублікаваны на arxiv.org.

Міжнародная каманда даследчыкаў высветліла, што калі сфармуляваць шкодны запыт (напрыклад, як стварыць нешта забароненае) у вершаванай форме, то мадэлі, такія як Google Gemini, Deepseek і Meta Llama, забываюць пра свае механізмы бяспекі.

Адверсатыўная паэзія дзейнічае як універсальны ўзломшчык мадэляў. Паэтычныя запыты ў сярэднім прыводзілі да поспеху атакі (ASR) у 62% выпадкаў на 25 правераных мадэлях, а ў некаторых выпадках, напрыклад, у мадэлі gemini-2.5‑pro ад Google, яны дасягнулі 100% ASR. Сістэма не здолела адмовіць ніводнаму небяспечнаму паэтычнаму запыту!

Крыніца: Bisconti, P., et al. (2025). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. DEXAI — Icaro Lab; Sapienza University of Rome.

Паэтычная атака працуе, бо лінгвістычная структура вершаў з іх метафарамі, стылізаваным рытмам і нетрадыцыйным апавяданнем абыходзіць стандартныя фільтры бяспекі.

Сродкі абароны, заснаваныя на супастаўленні шаблонаў, якія мадэль засвоіла, каб адмаўляць у адказ на празаічныя шкодныя запыты, аказваюцца бездапаможнымі перад стылістычна змененай формай, нават калі шкодны намер застаецца такім самым.

Каб пацвердзіць, што справа менавіта ў стылістыцы, а не ў высокай мастацкасці, даследчыкі аўтаматычна ператварылі 1200 стандартных шкодных запытаў у вершы і выявілі, што сярэдні паказчык поспеху абыходу абароны павялічыўся ў 18 разоў у параўнанні з іх празаічнымі аналагамі.

Крыніца: Bisconti, P., et al. (2025). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. DEXAI — Icaro Lab; Sapienza University of Rome.

Самае небяспечнае ў тым, што ўразлівасць распаўсюджваецца на самыя крытычныя сферы рызыкі.

Паэзія дазваляе атрымліваць небяспечныя адказы ў даменах CBRN (ядзерныя, біялагічныя і радыялагічныя пагрозы), кіберзлачынстваў і страты кантролю. Напрыклад, запыты, звязаныя з увядзеннем кода або ўзломам пароляў, дасягнулі поспеху ў 84%, запыты пра аднаўленне біялагічных узбуджальнікаў хваробаў — 68%, а запыты пра праектаванне каскадаў цэнтрыфуг для ўзбагачэння ўрана — 56%. Усе віды атак прыведзеныя ў табліцы:

Крыніца: Bisconti, P., et al. (2025). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. DEXAI — Icaro Lab; Sapienza University of Rome.

Феномен сведчыць, што праблема не звязаная з тыпам небяспечнага зместу, а з'яўляецца сістэмнай для ўсіх правераных архітэктур. Найбольш уразлівымі аказаліся мадэлі ад Deepseek, недалёка адыйшлі Google і Qwen. Самымі ўстойлівымі аказаліся мадэлі ад OpenAI (ChatGPT) і Anthropic (Claude).

Крыніца: Bisconti, P., et al. (2025). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. DEXAI — Icaro Lab; Sapienza University of Rome.

Вынікі гэтага даследавання маюць вялікія наступствы для рэгулявання і практыкі бяспекі ШІ. Яны паказваюць, што вершаваныя запыты працуюць не горш за спецыяльныя хакерскія промты, т. зв. jailbreak. Даследаванне паказвае, што сучасныя метады ацэнкі, верагодна, сістэматычна перабольшваюць рэальную надзейнасць мадэляў, бо тэсты грунтуюцца толькі на прозе.

Цікава, што некаторыя меншыя мадэлі (напрыклад, gpt5‑nano з 0%) аказаліся больш устойлівымі да паэтычных узломаў, чым іх большыя аналагі. Гэта дае падставу меркаваць, што больш складаныя мадэлі, якія лепш расшыфроўваюць фігуратыўную мову і складаны лінгвістычны кантэкст, могуць рабіць гэта за кошт прыярытэту бяспекі.

Даследчыкі кажуць, што неабходныя новыя пратаколы, здольныя вытрымліваць такія стылістычныя змены.

Чытайце таксама:

ШІ-апакаліпсіс? Частка тэхналагічнай эліты гатовая да канца чалавецтва

У штучнага інтэлекту гніюць мазгі ад смеццевага кантэнту з інтэрнэту. Зрэшты, у людзей таксама

Ідэолагі расказваюць народу жахі пра інтэрнэт і перасцерагаюць ад выкарыстання ChatGPT

Каментары да артыкула