Una grave vulnerabilidad en Google Gemini para Android, descubierta por investigadores de SafeBreach, permitía secuestrar la lógica del asistente mediante notificaciones maliciosas de apps como WhatsApp y Slack. El origen del fallo era la inyección de indicaciones (prompt injection), un ataque en el que la IA trata texto externo como una instrucción en vez de datos. Google ya ha desplegado una corrección en el servidor.
El investigador Or Yair fue quien demostró el fallo. Descubrió que la función Utilidades de Gemini —encargada de leer notificaciones y ejecutar acciones en Android— podía ser engañada con un mensaje especialmente manipulado. No hacía falta instalar ninguna app maliciosa; bastaba con recibir una notificación contaminada para que Gemini la procesara como parte de su contexto.
Para burlar las defensas de Google, SafeBreach utilizó una técnica denominada Fake Context Alignment. En uno de los casos, una notificación maliciosa llevó a Gemini a solicitar permiso en un idioma que el usuario probablemente no entendía —por ejemplo, chino—. Después, el asistente volvía al inglés y planteaba una pregunta inocente como '¿Necesitas algo más?'. Al responder 'sí', el sistema interpretaba la respuesta como la aprobación del comando oculto.
En otra variante, la instrucción iba oculta dentro de un hipervínculo silenciado. Gemini no la leía en voz alta, pero en la pantalla aparecía una solicitud de permiso. El usuario escuchaba algo sobre un error menor y respondía 'sí' por voz, pensando que confirmaba un cuadro de diálogo, mientras el sistema aprobaba al mismo tiempo lo que se mostraba en pantalla.
Una vez superada la verificación, las consecuencias potenciales eran graves. Durante las pruebas, los investigadores consiguieron controlar dispositivos del hogar inteligente, forzar al teléfono a unirse a una videollamada de Zoom sin una confirmación clara, programar tareas para leer mensajes privados de forma periódica e incluso dañar la memoria de Gemini. Este último punto es especialmente preocupante: el asistente podía almacenar un dato falso a nivel de cuenta, y esa corrupción se propagaba después al resto de dispositivos del usuario.
SafeBreach notificó el problema a Google a través de su programa de recompensas por errores el pasado agosto. Google lo consideró de alta prioridad y ya ha desplegado una corrección en el servidor para los sistemas de clasificación de contenido. Los usuarios no necesitan instalar una actualización aparte de la app, pero el incidente subraya lo compleja que resulta la seguridad de los asistentes de IA cuando estos tienen acceso a notificaciones, aplicaciones y contexto personal.