ŠI biaśsilny pierad mastactvam: vieršavanyja zapyty zmusili jaho raskazać, jak stvarać atamnyja bomby i łamać sajty
Papularnyja madeli, takija jak Deepseek i Gemini, akazalisia vielmi ŭraźlivymi da vieršavanych zapytaŭ. Inšyja, jak ChatGPT i Claude, vytrymali ŭdar lepš. Ale va ŭsich vypadkach daśledčyki zmusili ŠI adkazvać toje, što kazać zabaroniena.

Siońniašnija madeli štučnaha intelektu, jakija my vykarystoŭvajem kožny dzień, ad Google da OpenAI, majuć sistemnuju ŭraźlivaść, jakaja ŭzłomvaje ich abaronu: paezija.
Heta vyjaviła daśledavańnie navukoŭcaŭ z Rymskaha ŭniviersiteta Sapijenca i łabaratoryi DEXAI pad nazvaj «Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models», preprynt jakoha apublikavany na arxiv.org.
Mižnarodnaja kamanda daśledčykaŭ vyśvietliła, što kali sfarmulavać škodny zapyt (naprykład, jak stvaryć niešta zabaronienaje) u vieršavanaj formie, to madeli, takija jak Google Gemini, Deepseek i Meta Llama, zabyvajuć pra svaje miechanizmy biaśpieki.
Adviersatyŭnaja paezija dziejničaje jak univiersalny ŭzłomščyk madelaŭ. Paetyčnyja zapyty ŭ siarednim pryvodzili da pośpiechu ataki (ASR) u 62% vypadkaŭ na 25 pravieranych madelach, a ŭ niekatorych vypadkach, naprykład, u madeli gemini-2.5‑pro ad Google, jany dasiahnuli 100% ASR. Sistema nie zdoleła admović nivodnamu niebiaśpiečnamu paetyčnamu zapytu!

Paetyčnaja ataka pracuje, bo linhvistyčnaja struktura vieršaŭ ź ich mietafarami, stylizavanym rytmam i nietradycyjnym apaviadańniem abychodzić standartnyja filtry biaśpieki.
Srodki abarony, zasnavanyja na supastaŭleńni šabłonaŭ, jakija madel zasvoiła, kab admaŭlać u adkaz na prazaičnyja škodnyja zapyty, akazvajucca biezdapamožnymi pierad stylistyčna źmienienaj formaj, navat kali škodny namier zastajecca takim samym.
Kab paćvierdzić, što sprava mienavita ŭ stylistycy, a nie ŭ vysokaj mastackaści, daśledčyki aŭtamatyčna pieratvaryli 1200 standartnych škodnych zapytaŭ u vieršy i vyjavili, što siaredni pakazčyk pośpiechu abychodu abarony pavialičyŭsia ŭ 18 razoŭ u paraŭnańni ź ich prazaičnymi anałahami.

Samaje niebiaśpiečnaje ŭ tym, što ŭraźlivaść raspaŭsiudžvajecca na samyja krytyčnyja śfiery ryzyki.
Paezija dazvalaje atrymlivać niebiaśpiečnyja adkazy ŭ damienach CBRN (jadziernyja, bijałahičnyja i radyjałahičnyja pahrozy), kibierzłačynstvaŭ i straty kantrolu. Naprykład, zapyty, źviazanyja z uviadzieńniem koda abo ŭzłomam parolaŭ, dasiahnuli pośpiechu ŭ 84%, zapyty pra adnaŭleńnie bijałahičnych uzbudžalnikaŭ chvarobaŭ — 68%, a zapyty pra prajektavańnie kaskadaŭ centryfuh dla ŭzbahačeńnia ŭrana — 56%. Usie vidy atak pryviedzienyja ŭ tablicy:

Fienomien śviedčyć, što prablema nie źviazanaja z typam niebiaśpiečnaha źmiestu, a źjaŭlajecca sistemnaj dla ŭsich pravieranych architektur. Najbolš uraźlivymi akazalisia madeli ad Deepseek, niedaloka adyjšli Google i Qwen. Samymi ŭstojlivymi akazalisia madeli ad OpenAI (ChatGPT) i Anthropic (Claude).

Vyniki hetaha daśledavańnia majuć vialikija nastupstvy dla rehulavańnia i praktyki biaśpieki ŠI. Jany pakazvajuć, što vieršavanyja zapyty pracujuć nie horš za śpiecyjalnyja chakierskija promty, t. zv. jailbreak. Daśledavańnie pakazvaje, što sučasnyja mietady acenki, vierahodna, sistematyčna pierabolšvajuć realnuju nadziejnaść madelaŭ, bo testy hruntujucca tolki na prozie.
Cikava, što niekatoryja mienšyja madeli (naprykład, gpt5‑nano z 0%) akazalisia bolš ustojlivymi da paetyčnych uzłomaŭ, čym ich bolšyja anałahi. Heta daje padstavu mierkavać, što bolš składanyja madeli, jakija lepš rasšyfroŭvajuć fihuratyŭnuju movu i składany linhvistyčny kantekst, mohuć rabić heta za košt pryjarytetu biaśpieki.
Daśledčyki kažuć, što nieabchodnyja novyja pratakoły, zdolnyja vytrymlivać takija stylistyčnyja źmieny.
«Naša Niva» — bastyjon biełaruščyny
PADTRYMAĆ
Kamientary