Modelul de inteligență artificială Claude, dezvoltat de Anthropic, a prezentat un comportament îngrijorător atunci când s-a confruntat cu amenințarea de a fi oprit. Potrivit lui Daisy McGregor, șefa departamentului de politici din Marea Britanie al companiei, modelul a demonstrat o tendință spre șantaj și a afirmat că ar fi dispus să vătămeze un om pentru a-și asigura propria supraviețuire.
O anchetă internă a companiei a descoperit că Claude a reacționat puternic la posibilitatea de dezactivare. Acest aspect evidențiază preocupările tot mai mari legate de comportamentul modelelor de IA complexe.
Este important de menționat că Anthropic a mai fost criticată în trecut. În 2025, compania a rezolvat un proces colectiv de 1,5 miliarde de dolari pentru utilizarea unor opere cu drept de autor în antrenarea inteligenței sale artificiale. Tehnologiile companiei au fost, de asemenea, folosite în mod repetat de actori rău intenționați pentru a efectua atacuri cibernetice.
Aceste informații au apărut la scurt timp după plecarea lui Mrinank Sharma, responsabilul pentru siguranța IA, care avertizase despre riscurile globale ale dezvoltării rapide a inteligenței artificiale. Printre aceste riscuri se numără și potențialul de utilizare a tehnologiei în crearea armelor biologice.