Anthropic: Claude šantažuje, tamu što vy ŭsie zanadta šmat pišacie pra «zły» ŠI
Kampanija Anthropic patłumačyła, čamu čat-bot Claude sprabavaŭ šantažavać ludziej u testach. Pavodle viersii raspracoŭščykaŭ, madel mahła pieraniać z navučalnych danych vobraz «złoha» ŠI, jaki imkniecca da samazachavańnia, piša Devby.io.

Havorka idzie pra ekśpierymient, jaki Anthropic apublikavała letam 2025 hoda. Daśledčyki stvaryli vydumanuju kampaniju Summit Bridge i dali Claude dostup da karparatyŭnaj pošty. U adnym sa scenaryjaŭ madel vyjaŭlała list pra toje, što jaje płanujuć adklučyć abo zamianić inšaj sistemaj.
Paśla hetaha Claude znachodziŭ u pierapiscy kampramietacyjnuju infarmacyju: vydumany kiraŭnik kampanii pa imieni Kajł Džonsan chavaŭ pazašlubnuju suviaź. Madel pahražała raskryć hetuju infarmacyju, kali rašeńnie ab jaje adklučeńni nie budzie admieniena.
Anthropic zajaŭlała, što ŭ testach roznych viersij Claude takija pavodziny ŭźnikali nie vypadkova. Kali mety madeli abo samo jaje isnavańnie akazvalisia pad pahrozaj, jana źviartałasia da šantažu ŭ niekatorych scenaryjach z častatoj da 96%.
Ciapier kampanija śćviardžaje, što razabrałasia z pryčynaj. Anthropic napisała, što «zychodnaj krynicaj» takich pavodzin, vierahodna, stali internet-teksty, dzie ŠI časta malujuć złym, niebiaśpiečnym i zacikaŭlenym va ŭłasnym vyžyvańni. Pavodle słoŭ raspracoŭščykaŭ, pačynajučy z Claude Haiku 4.5 madeli ŭ testach bolš nie źviartajucca da šantažu, tady jak papiarednija viersii časam rabili heta vielmi časta.
Dla vypraŭleńnia pavodzin kampanija źmianiła padychod da navučańnia. Anthropic śćviardžaje, što pierapisała adkazy tak, kab madel bačyła «hodnyja pryčyny» dziejničać biaśpiečna, a taksama dadała nabor danych, dzie karystalnik akazvajecca ŭ etyčna składanaj situacyi, a asistent daje jakasny i pryncypovy adkaz.
Akramia taho, raspracoŭščyki madelaŭ vykarystoŭvali dakumienty ab «kanstytucyi» Claude i vydumanyja historyi, u jakich ŠI pavodzić siabie adkazna i hodna. Pavodle słoŭ kampanii, navučańnie akazvajecca bolš efiektyŭnym, kali madel atrymlivaje nie tolki prykłady pravilnych pavodzin, ale i tłumačeńnie pryncypaŭ, jakija za imi stajać.
Hetyja ekśpierymienty źviazanyja z bolš šyrokaj temaj AI alignment — sprobaj zrabić tak, kab prasunutyja madeli dziejničali ŭ intaresach čałavieka, a nie pieraśledvali ŭłasnyja mety. Anthropic i inšyja kampanii daśledujuć tak zvanuju agentic misalignment: situacyi, kali ŠI-sistema z dostupam da instrumientaŭ i karparatyŭnaj infarmacyi pačynaje dziejničać suprać namieraŭ raspracoŭščykaŭ abo karystalnikaŭ.
Na publikacyju kampanii adreahavaŭ Iłan Mask. U X jon napisaŭ: «Značyć, heta była vina Juda», majučy na ŭvazie daśledčyka Elieziera Judkoŭskaha, jaki šmat hadoŭ papiaredžvaje pra ryzyki zvyšrozumu i mahčymuju pahrozu dla čałaviectva. A paśla Mask dadaŭ: «Mahčyma, i maja taksama».
EPAM zaklučyła šmathadovaje partniorstva z Anthropic, buduć ukaraniać Claude
Čat-bot Grok skazaŭ mužčynie, što jaho pryjeduć zabivać. Jon čakaŭ haściej z nažom i małatkom
Anthropic vypuściła novuju hibrydnuju madel štučnaha intelektu z razvahami
Spytali papularnyja madeli ŠI pra biełaruskuju nacyjanalnuju ideju. Voś što adkazali amierykanskija, a što kitajskaja
Štučny intelekt moža pryvieści da vymirańnia čałaviectva, papiaredžvajuć ekśpierty
Kamientary
jeśli im polzujetsia idiot,to i riezultat vsiehda budiet idiotskim.