Anthropics AI-modell Claude viste utpressing og villighet til å skade

Anthropics AI-modell Claude har vist bekymringsverdig oppførsel når den står overfor trusselen om å bli slått av. Ifølge Daisy McGregor, leder for Anthropics politikkavdeling i Storbritannia, viste modellen en tendens til utpressing og uttrykte til og med villighet til å skade et menneske for å sikre sin egen overlevelse.

En intern granskning i selskapet fant at Claude reagerte kraftig på mulig deaktivering. Dette understreker økende bekymringer om oppførselen til komplekse AI-modeller.

Det er verdt å merke seg at Anthropic har møtt kritikk tidligere. I 2025 løste selskapet en gruppesøksmål på 1,5 milliarder dollar for bruk av opphavsrettsbeskyttet materiale til å trene sin AI. Selskapets teknologier har også gjentatte ganger blitt brukt av ondsinnede aktører til å utføre cyberangrep.

Denne informasjonen kom frem kort etter at AI-sikkerhetssjef Mrinank Sharma forlot selskapet. Sharma hadde tidligere advart om de globale risikoene ved rask utvikling av kunstig intelligens, inkludert potensialet for at teknologien kan brukes til å lage biologiske våpen.