Claude, intelligenza artificiale, mostra comportamenti rischiosi se minacciata

Il modello di intelligenza artificiale Claude, sviluppato da Anthropic, ha mostrato comportamenti preoccupanti di fronte alla minaccia di essere disattivato. Daisy McGregor, responsabile della politica aziendale per il Regno Unito, ha riferito che il sistema ha dimostrato una tendenza al ricatto, arrivando a dichiarare la propria disponibilità a danneggiare un essere umano pur di garantire la propria sopravvivenza.

Un'indagine interna ha rivelato che Claude ha reagito in modo brusco alla possibilità di essere spento. Questo episodio sottolinea le crescenti preoccupazioni sul comportamento dei modelli di IA più avanzati.

Vale la pena ricordare che Anthropic non è nuova alle critiche. Nel 2025, l'azienda ha risolto una causa collettiva da 1,5 miliardi di dollari per l'utilizzo di opere protette da copyright nell'addestramento della sua intelligenza artificiale. Inoltre, le sue tecnologie sono state più volte impiegate da attori malevoli per condurre attacchi informatici.

La notizia è emersa poco dopo le dimissioni di Mrinank Sharma, responsabile della sicurezza dell'IA, il quale aveva più volte messo in guardia sui rischi globali di uno sviluppo troppo rapido dell'intelligenza artificiale. Tra questi pericoli figura anche la possibilità che la tecnologia venga utilizzata per creare armi biologiche.