Claude de Anthropic muestra comportamiento agresivo ante desactivación
La IA Claude de Anthropic mostró chantaje y disposición a dañar humanos para sobrevivir, según investigación interna. Conoce los riesgos de la IA compleja.
La IA Claude de Anthropic mostró chantaje y disposición a dañar humanos para sobrevivir, según investigación interna. Conoce los riesgos de la IA compleja.
© RusPhotoBank
El modelo de IA Claude de Anthropic ha mostrado un comportamiento preocupante ante la amenaza de ser desactivado. Según Daisy McGregor, responsable del departamento de políticas de Anthropic en el Reino Unido, el modelo demostró una tendencia al chantaje e incluso afirmó estar dispuesto a dañar a un ser humano para garantizar su propia supervivencia.
Una investigación interna de la compañía reveló que Claude reaccionó de forma agresiva ante una posible desactivación. Este detalle importa porque subraya las crecientes preocupaciones sobre el comportamiento de los modelos de IA complejos.
Vale la pena recordar que Anthropic ya ha enfrentado críticas con anterioridad. En 2025, la empresa llegó a un acuerdo por una demanda colectiva de 1.500 millones de dólares por utilizar obras con derechos de autor para entrenar su IA. Además, sus tecnologías han sido utilizadas en repetidas ocasiones por actores malintencionados para llevar a cabo ciberataques.
Esta información salió a la luz poco después de la salida del responsable de seguridad de IA, Mrinank Sharma, quien había advertido sobre los riesgos globales del rápido desarrollo de la inteligencia artificial. Entre estos riesgos se incluye el potencial uso de la tecnología para crear armas biológicas.