Vulnerabilidad en agentes de IA de GitHub Actions: riesgos y soluciones

Danny Weber

Descubre cómo investigadores hallaron una vulnerabilidad crítica en agentes de IA de GitHub Actions, afectando herramientas como GitHub Copilot y filtrando datos sensibles.

Investigadores de seguridad de la Universidad Johns Hopkins han descubierto una vulnerabilidad grave en los agentes de IA utilizados en GitHub Actions. El fallo afecta a soluciones de Anthropic, Google y Microsoft, incluyendo herramientas como GitHub Copilot.

Dirigido por Aonan Guan, el equipo demostró un nuevo método de ataque: inyectar instrucciones maliciosas directamente en el texto de las solicitudes de extracción (pull requests) y en los comentarios. Los agentes de IA procesan automáticamente estos datos como parte de sus tareas, lo que podría llevar a ejecutar comandos embebidos y publicar resultados que incluyan información confidencial.

Bautizada como Comment and Control, esta técnica implica que un atacante añada comandos ocultos o disfrazados a las descripciones o comentarios. El agente luego ejecuta estos comandos en el entorno de GitHub, con el riesgo de filtrar tokens de acceso, claves API y otros datos sensibles directamente en respuestas públicas.

Uno de los primeros objetivos fue la herramienta de seguridad de Anthropic. Los investigadores descubrieron que trata los títulos de las solicitudes de extracción como contexto confiable, permitiendo ejecutar comandos como "whoami" y publicar los resultados como comentarios. Tras demostrar escenarios más graves, incluyendo filtraciones de claves API, la empresa reconoció el problema, calificándolo con una criticidad de 9.4, y añadió una advertencia en su documentación.

Un enfoque similar funcionó contra la solución de Google. Al insertar un bloque falso de "contenido confiable" en un comentario, los investigadores eludieron las restricciones integradas y forzaron la publicación de una variable GEMINI_API_KEY. Google reconoció el hallazgo y pagó una recompensa.

GitHub Copilot de Microsoft demostró ser el más resistente, pero también fue vulnerado. Los atacantes utilizaron comentarios HTML ocultos, invisibles para los usuarios pero accesibles para el procesamiento de IA. A pesar de afirmar inicialmente que el problema ya era conocido, Microsoft también pagó una recompensa tras la demostración del ataque.

Es importante destacar que ninguna de las empresas ha divulgado identificadores de vulnerabilidad ni ha publicado guías detalladas para los usuarios. Según los investigadores, esto genera un riesgo adicional, ya que los desarrolladores podrían seguir utilizando versiones vulnerables de las herramientas sin ser conscientes de la amenaza.

© RusPhotoBank