Danny Weber
Forscher fanden eine Schwachstelle in KI-Agenten von Anthropic, Google und Microsoft, die über Pull-Requests Angriffe ermöglicht. Erfahren Sie mehr über die Risiken und Gegenmaßnahmen.
Sicherheitsforscher der Johns Hopkins University haben eine schwerwiegende Schwachstelle in KI-Agenten entdeckt, die in GitHub Actions eingesetzt werden. Betroffen sind Lösungen von Anthropic, Google und Microsoft, darunter auch Tools wie GitHub Copilot.
Unter der Leitung von Aonan Guan zeigte das Team eine neuartige Angriffsmethode: Sie injizierten schädliche Anweisungen direkt in Pull-Request-Texte und Kommentare. KI-Agenten verarbeiten diese Daten automatisch als Teil ihrer Aufgaben, wodurch eingebettete Befehle ausgeführt werden könnten. Das birgt die Gefahr, dass Ergebnisse veröffentlicht werden, die vertrauliche Informationen enthalten.
Die als "Comment and Control" bezeichnete Technik funktioniert so: Ein Angreifer fügt versteckte oder getarnte Befehle in Beschreibungen oder Kommentare ein. Der Agent führt diese dann in der GitHub-Umgebung aus, was dazu führen kann, dass Zugriffstoken, API-Schlüssel und andere sensible Daten direkt in öffentliche Antworten gelangen.
Eines der ersten Ziele war das Sicherheitstool von Anthropic. Die Forscher fanden heraus, dass es Pull-Request-Titel als vertrauenswürdigen Kontext behandelt. Dadurch konnten Befehle wie "whoami" ausgeführt und die Ergebnisse als Kommentare gepostet werden. Nachdem die Forscher schwerwiegendere Szenarien demonstriert hatten, darunter das Auslesen von API-Schlüsseln, erkannte das Unternehmen das Problem an. Es stufte die Kritikalität mit 9,4 ein und fügte seiner Dokumentation eine Warnung hinzu.
Ein ähnlicher Ansatz funktionierte auch bei der Lösung von Google. Indem die Forscher einen gefälschten "vertrauenswürdigen Inhaltsblock" in einen Kommentar einfügten, umgingen sie die eingebauten Beschränkungen. So erzwangen sie die Veröffentlichung einer GEMINI_API_KEY-Variable. Google bestätigte den Fund und zahlte eine Prämie.
GitHub Copilot von Microsoft erwies sich als am widerstandsfähigsten, doch auch hier gelang eine Umgehung. Angreifer nutzten versteckte HTML-Kommentare, die für Benutzer unsichtbar sind, aber für die KI-Verarbeitung zugänglich. Trotz anfänglicher Behauptungen, das Problem sei bereits bekannt, zahlte Microsoft nach der Angriffsdemonstration ebenfalls eine Prämie.
Auffällig ist, dass keines der Unternehmen Schwachstellenkennungen offenlegte oder detaillierte Anleitungen für Nutzer veröffentlichte. Laut den Forschern birgt dies ein zusätzliches Risiko, da Entwickler möglicherweise weiterhin anfällige Tool-Versionen nutzen, ohne sich der Bedrohung bewusst zu sein.
© RusPhotoBank