Onderzoekers van SafeBreach hebben een ernstige kwetsbaarheid ontdekt in Google Gemini op Android-apparaten. Via schadelijke meldingen van apps zoals WhatsApp en Slack kon de logica van de assistent worden gekaapt. Het probleem was een prompt-injectie: een aanval waarbij de AI externe tekst interpreteert als een instructie in plaats van data. Google heeft inmiddels een server-side fix uitgerold.
Onderzoeker Or Yair toonde het lek aan. Hij ontdekte dat de Utilities-functie van Gemini, die de assistent helpt bij het lezen van meldingen en uitvoeren van acties op Android, kon worden misleid door een speciaal geprepareerd bericht. Er was geen kwaadaardige app-installatie nodig; het enige wat nodig was, was het ontvangen van een vergiftigde melding, waarna Gemini deze verwerkte als onderdeel van zijn context.
Om de verdediging van Google te omzeilen, gebruikte SafeBreach een techniek genaamd Fake Context Alignment. In één geval zorgde een kwaadaardige melding ervoor dat Gemini om toestemming vroeg in een taal die de gebruiker waarschijnlijk niet begreep – bijvoorbeeld Chinees. Daarna schakelde de assistent terug naar het Engels en stelde een onschuldige vraag als: 'Is dat alles wat u nodig heeft?' Als de gebruiker 'ja' zei, interpreteerde het systeem dat als goedkeuring voor het verborgen commando.
In een andere variant was de instructie verborgen in een gedempte hyperlink. Gemini las deze niet hardop voor, maar er verscheen wel een toestemmingsverzoek op het scherm. De gebruiker hoorde iets over een kleine fout en reageerde met 'ja' via de stem, in de veronderstelling een dialoog te bevestigen, terwijl het systeem tegelijkertijd alles op het scherm kon goedkeuren.
Zodra de controle was omzeild, waren de mogelijke gevolgen ernstig. Tijdens tests wisten onderzoekers slimme thuisapparaten te bedienen, de telefoon te dwingen deel te nemen aan een Zoom-vergadering zonder duidelijke bevestiging, taken in te plannen om regelmatig privéberichten te lezen, en zelfs het geheugen van Gemini te manipuleren. Dat laatste is bijzonder zorgwekkend: de assistent kon een valse bewering opslaan op accountniveau, waarna die manipulatie zich verspreidde naar de andere apparaten van de gebruiker.
SafeBreach meldde het probleem in augustus bij Google via het bugbountyprogramma. Google behandelde het als een prioriteit en heeft inmiddels een server-side fix geïmplementeerd voor de inhoudsclassificatiesystemen. Gebruikers hoeven geen aparte app-update te installeren, maar het incident laat zien hoe ingewikkeld de beveiliging van AI-assistenten wordt wanneer deze toegang hebben tot meldingen, apps en persoonlijke context.