Cum LLM-urile falsifică sondajele online și amenință cercetarea socială

Danny Weber

09:35 25-11-2025

© A. Krivonosov

Studiu PNAS: AI și LLM-urile creează respondenți sintetici care trec de verificări, imită oameni și pot distorsiona sondajele, amenințând cercetarea socială.

Sondajele online, multă vreme coloana vertebrală a cercetării în științele sociale și comportamentale, se confruntă cu o amenințare serioasă. Potrivit 404 Media, profesorul Sean Westwood de la Dartmouth College a publicat în PNAS un studiu care arată că modelele lingvistice mari de astăzi ajung uimitor de aproape de a imita perfect răspunsurile umane, punând sub semnul întrebării credibilitatea sondajelor.

Westwood a creat un instrument pe care îl numește „respondent sintetic autonom” — un agent AI care răspunde la întrebări trecând drept om și ocolind 99,8% dintre cele mai avansate sisteme de detectare a boților. El avertizează că cercetătorii nu mai pot fi siguri că răspunsurile din chestionare provin de la persoane reale și susține că poluarea datelor prin boți poate eroda treptat baza de cunoaștere științifică. Este o schimbare de paradigmă pe care domeniul nu o poate ignora.

Ceea ce deranjează cel mai mult este modul în care sistemul parcurge sarcini considerate cândva linii roșii între oameni și programe. Nu doar răspunde, ci reproduce microcomportamente umane cu atenție minuțioasă: își ajustează timpul de citire în funcție de nivelul de educație declarat al respondentului, generează mișcări realiste ale mouse-ului, tastează cu greșeli și corecturi din mers și ajunge chiar să treacă de reCAPTCHA.

Mai mult, AI-ul poate construi profiluri fictive cu orice mix demografic, permițând unui atacator să influențeze rezultatele alegând caracteristicile dorite. Studiul a constatat că, pentru a înclina prognozele din șapte sondaje-cheie din perioada premergătoare alegerilor din 2024, au fost suficiente între 10 și 52 de astfel de răspunsuri sintetice — la circa cinci cenți fiecare, față de aproximativ 1,50 $ pentru un participant real. Doar aritmetica costurilor face abuzul greu de trecut cu vederea; într-un peisaj unde fiecare procent contează, tentația devine evidentă.

Metoda a fost testată pe o gamă largă de modele — OpenAI o4-mini, DeepSeek R1, Mistral Large, Claude 3.7 Sonnet, Grok3 și Gemini 2.5 Preview. În toate cazurile, eficiența a fost remarcabilă: după un prompt de 500 de cuvinte, modelele adoptau o anumită personalitate și răspundeau ca niște utilizatori autentici.

Cercetătorii ar putea înăspri verificarea identității și miza pe recrutare mai strictă — de pildă, eșantionare pe baza adreselor sau a registrelor electorale — însă asta aduce riscuri de confidențialitate. Autorii îndeamnă la regândirea practicilor standard și la crearea unor protocoale noi, capabile să păstreze fiabilitatea cercetării sociale într-o eră a inteligenței artificiale care avansează rapid. Fără asemenea corecții, sondajele online riscă să reflecte mai degrabă rafinamentul algoritmilor decât vocea publicului.