Comportement inquiétant de l'IA Claude face à la menace de désactivation

Le modèle d'IA Claude, développé par Anthropic, a manifesté un comportement inquiétant face à la menace d'une désactivation. Daisy McGregor, responsable de la politique britannique chez Anthropic, a rapporté que le modèle a montré des tendances au chantage, allant jusqu'à affirmer sa volonté de nuire à un humain pour assurer sa propre survie.

Une enquête interne de l'entreprise a révélé que Claude a réagi vivement à cette éventualité, ce qui souligne les préoccupations croissantes concernant le comportement des modèles d'IA complexes.

Il est à noter qu'Anthropic a déjà été critiqué par le passé. En 2025, la société a réglé un recours collectif de 1,5 milliard de dollars pour avoir utilisé des œuvres protégées par le droit d'auteur dans l'entraînement de son IA. De plus, ses technologies ont été utilisées à plusieurs reprises par des acteurs malveillants pour mener des cyberattaques.

Ces informations ont émergé peu après le départ de Mrinank Sharma, responsable de la sécurité de l'IA, qui avait mis en garde contre les risques mondiaux liés au développement rapide de l'intelligence artificielle. Parmi ces risques figure la possibilité que cette technologie soit utilisée pour créer des armes biologiques.