Forskere ved SafeBreach har funnet en alvorlig sårbarhet i Google Gemini på Android. Sårbarheten gjør det mulig å manipulere assistentens logikk via ondsinnede varsler fra apper som WhatsApp og Slack. Problemet skyldes såkalt prompt injection – et angrep der AI-en tolker ekstern tekst som en instruksjon i stedet for data. Google har allerede rullet ut en retting på serversiden.
Det var forskeren Or Yair som demonstrerte svakheten. Han oppdaget at Geminis Utilities-funksjon, som leser varsler og utfører handlinger på Android, kunne lure av en spesiallaget melding. Det trengtes ingen ondsinnet app-installasjon; det var nok å motta et forgiftet varsel, fordi Gemini behandlet det som en del av konteksten.
For å omgå Googles forsvar brukte SafeBreach en teknikk kalt Fake Context Alignment. I ett tilfelle fikk et ondsinnet varsel Gemini til å be om tillatelse på et språk brukeren sannsynligvis ikke forsto, for eksempel kinesisk. Assistenten byttet så tilbake til engelsk og stilte et uskyldig spørsmål som «Er det alt du trenger?» Når brukeren svarte «ja», tolket systemet det som godkjenning av den skjulte kommandoen.
I en annen variant var instruksjonen gjemt i en dempet hyperlenke. Gemini leste den ikke høyt, men en tillatelsesforespørsel dukket opp på skjermen. Brukeren hørte noe om en mindre feil og svarte «ja» med stemmen, i tro på at de bekreftet en dialogboks, mens systemet samtidig kunne godkjenne det som ble vist på skjermen.
Når omgåelsen var fullført, kunne konsekvensene bli alvorlige. Under testing klarte forskerne å kontrollere smarthjemenheter, tvinge telefonen til å delta i et Zoom-møte uten tydelig bekreftelse, planlegge oppgaver for regelmessig lesing av private meldinger, og til og med ødelegge Geminis minne. Det siste er spesielt bekymringsfullt: assistenten kunne lagre et falskt fakta på kontonivå, og korrupsjonen ville spre seg til brukerens andre enheter.
SafeBreach meldte fra om problemet til Google via deres bug bounty-program i august. Google anså det som et høyt prioritert problem og har allerede distribuert en serverbasert retting for innholdsklassifiseringssystemene. Brukere trenger ikke å installere en egen app-oppdatering, men hendelsen understreker hvor komplisert AI-assistentsikkerhet blir når assistentene har tilgang til varsler, apper og personlig kontekst.