Bezpečnostní výzkumníci z Johns Hopkins University odhalili závažnou zranitelnost v AI agentech používaných v rámci GitHub Actions. Chyba se týká řešení od Anthropicu, Googlu a Microsoftu, včetně nástrojů jako GitHub Copilot.
Tým vedený Aonanem Guanem předvedl novou metodu útoku—přímé vkládání škodlivých instrukcí do textu pull requestů a komentářů. AI agenti tyto údaje automaticky zpracovávají jako součást svých úloh, což může vést k provedení vložených příkazů a zveřejnění výsledků, jež mohou obsahovat citlivé informace.
Technika pojmenovaná Comment and Control spočívá v tom, že útočník přidá skryté nebo zamaskované příkazy do popisů nebo komentářů. Agent je pak spustí v prostředí GitHubu, což může vést k úniku přístupových tokenů, API klíčů a dalších citlivých dat přímo do veřejných odpovědí.
Jedním z prvních cílů byl bezpečnostní nástroj Anthropicu. Výzkumníci zjistili, že tento nástroj považuje názvy pull requestů za důvěryhodný kontext, což umožňuje spustit příkazy jako „whoami“ a výsledky zveřejnit jako komentáře. Po předvedení závažnějších scénářů, včetně úniků API klíčů, společnost problém uznala, ohodnotila jeho kritičnost na 9,4 a přidala varování do dokumentace.
Podobný přístup fungoval i u řešení Googlu. Vložením falešného bloku „důvěryhodného obsahu“ do komentáře výzkumníci obešli vestavěná omezení a donutili publikovat proměnnou GEMINI_API_KEY. Google nález uznal a vyplatil odměnu.
GitHub Copilot od Microsoftu se ukázal jako nejodolnější, ale i ten byl prolomen. Útočníci použili skryté HTML komentáře, neviditelné pro uživatele, ale přístupné pro AI zpracování. Přestože Microsoft zpočátku tvrdil, že problém je již známý, po předvedení útoku také vyplatil odměnu.
Je pozoruhodné, že žádná z firem nezveřejnila identifikátory zranitelností ani podrobné uživatelské pokyny. Podle výzkumníků to vytváří dodatečné riziko, protože vývojáři mohou nadále používat zranitelné verze nástrojů, aniž by si byli vědomi hrozby.