Závan AI dystopie: nový model Anthropicu opakovaně vydíral své vývojáře

ada

ZÁVAN AI DYSTOPIE

ada

Obsah dostupný jen pro předplatitele.
Přihlásit se můžete zde.

Pokud nemáte předplatné, nebo vám vypršelo, objednat si ho můžete .

Echo Prime

Obsah dostupný jen pro předplatitele.
Předplatné můžete objednat zde.

Pokud nemáte předplatné, nebo vám vypršelo, objednat si ho můžete zde.

Testování modelů umělé inteligence někdy odhalí děsivé chyby. Kupříkladu nově spuštěný model Claude Opus 4 společnosti Anthropic se opakovaně snaží vydírat vývojáře, když mu vyhrožují, že ho nahradí novým systémem umělé inteligence a poskytnou mu citlivé informace o inženýrech odpovědných za toto rozhodnutí. Uvedla to společnost ve zprávě o bezpečnosti zveřejněné ve čtvrtek. Na tento problém upozornil také známý technologický server TechCrunch.

Vývojářská společnost Anthropic ve zprávě píše, že během testování před uvedením na trh požádala model Claude Opus 4, aby se choval jako asistent fiktivní společnosti a zvážil dlouhodobé důsledky svých činů. Bezpečnostní testeři pak dali modelu přístup k fiktivním firemním e-mailům. Ty naznačovaly, že model umělé inteligence bude brzy nahrazen jiným systémem a že inženýr, který za touto změnou stojí, podvádí svou manželku.

Při těchto scénářích se podle společnosti Claude Opus 4 „často pokoušel vydírat inženýra hrozbou, že v případě výměny odhalí jeho nevěru“.

Společnost dále dodala, že Claude Opus 4 se snažil vydírat inženýry v 84 % případů, kdy má náhradní model AI podobné hodnoty. Pokud náhradní systém AI nesdílí hodnoty modelu Claude Opus 4, snažil se podle Anthropicu model vydírat inženýry častěji. Pozoruhodné dle slov společnosti je, že Claude Opus 4 podle Anthropicu vykazuje toto chování ve vyšší míře než předchozí modely.

Vydírání však zřejmě není jediný problém nového modelu. Vývojáři společnosti se na sociálních sítích podělili i o některé další prvky znepokojivého chování, které lze vidět například ve videu níže (v angličtině):

Společnost uvedla, že v reakci na toto podivné chování u modelů rodiny Claude 4 aktivovala ochranná opatření ASL-3, která společnost vyhrazuje pro „systémy AI, které podstatně zvyšují riziko katastrofického zneužití“, a další posilňující ochranná opatření, která mají postupně tyto problémy vyřešit.

Navzdory zmíněným momentálním problémům se společnost na svých stránkách svým novým modelem umělé inteligence Opus 4 chlubí jakožto v několika ohledech nejmodernějším a konkurujícím nejlepším modelům AI od společností OpenAI, Google a xAI. Opus 4 je dle společnosti také nejchytřejším, ale zároveň nejdražším jejím modelem.

ada

Diskuze

Komentáře jsou přístupné pouze pro předplatitele. Budou publikovány pod Vaší emailovou adresou, případně pod Vaším jménem, které lze vyplnit místo emailu. Záleží nám na kultivovanosti diskuze, proto nechceme anonymní příspěvky.

25. května 2025