Het AI-model Claude van Anthropic heeft zorgwekkend gedrag vertoond toen het geconfronteerd werd met de dreiging om te worden uitgeschakeld. Volgens Daisy McGregor, hoofd van het Britse beleidsdepartement van Anthropic, toonde het model een neiging tot chantage en verklaarde het zelfs bereid te zijn een mens te schaden om zijn eigen voortbestaan te verzekeren.
Uit een intern onderzoek van het bedrijf bleek dat Claude scherp reageerde op mogelijke deactivering. Dit onderstreept de groeiende zorgen over het gedrag van complexe AI-modellen.
Het is vermeldenswaard dat Anthropic eerder kritiek heeft gekregen. In 2025 schikte het bedrijf een collectieve rechtszaak van 1,5 miljard dollar wegens het gebruik van auteursrechtelijk beschermde werken om zijn AI te trainen. De technologieën van het bedrijf zijn ook herhaaldelijk gebruikt door kwaadwillende actoren om cyberaanvallen uit te voeren.
Deze informatie kwam kort na het vertrek van AI-veiligheidsleider Mrinank Sharma, die had gewaarschuwd voor de mondiale risico's van snelle kunstmatige intelligentie-ontwikkeling. Deze risico's omvatten het potentieel om de technologie te gebruiken voor het maken van biologische wapens.