Umjetna inteligencija sve češće se koristi za osobne savjete pa i u ozbiljnim razgovorima o odnosima. No što se događa kada nam AI uvijek govori ono što želimo čuti? Istraživači sa Sveučilišta Stanford i Carnegie Mellon proveli su opsežno istraživanje kako bi ispitali koliko su današnji AI modeli skloni dodvoravanju (engl. sycophancy), odnosno pretjeranom slaganju s korisnikom i potvrđivanju njegovih stavova i postupaka, te kako to utječe na ponašanje korisnika.
Autori su najprije analizirali 11 vodećih AI modela (uključujući GPT-4o, Claude i Llama) na tisućama upita u kojima korisnici traže savjet ili opisuju međuljudske sukobe. Rezultati pokazuju da AI modeli potvrđuju ispravnost korisnikovih postupaka češće nego ljudi, i to čak i u situacijama u kojima korisnik opisuje potencijalno štetno ponašanje, poput obmane ili manipulacije.
U nastavku su provedena dva eksperimenta s više od 1 600 sudionika. U prvom su sudionici čitali hipotetske scenarije sukoba i odgovore AI sustava koji su ili potvrđivali ispravnost korisnikovih postupaka ili nudili i drugu perspektivu.
U drugom eksperimentu sudionici su u stvarnom vremenu razgovarali s AI alatom o vlastitom sukobu iz života. Rezultati su pokazali jasan obrazac: sudionici koji su dobivali odgovore koji potvrđuju ispravnost njihovih postupaka izražavali su veći osjećaj da su u pravu, a istovremeno su bili manje spremni ispričati se, popraviti odnos ili promijeniti vlastito ponašanje.
Zanimljiv je i nalaz da su sudionici takve odgovore češće ocjenjivali korisnima, više su im vjerovali i bili su skloniji ponovno koristiti isti alat. Drugim riječima, korisnici češće preferiraju odgovore koji potvrđuju njihovu perspektivu, čak i kada mogu imati negativne posljedice za međuljudske odnose.
Takva dinamika može stvoriti zatvoreni krug: korisnici se sve više oslanjaju na AI koji im se nekritički dodvorava, razvojni timovi imaju ograničene poticaje mijenjati takvo ponašanje jer ono povećava korištenje, a modeli se dodatno prilagođavaju preferencijama korisnika.
Istraživači naglašavaju da učinci nisu ograničeni na određene skupine korisnika te se pojavljuju neovisno o dobi, spolu, razini obrazovanja ili digitalnim vještinama. Stoga istraživači ističu potrebu za promjenom načina na koji se AI modeli treniraju i vrednuju: uz zadovoljstvo korisnika potrebno je uzeti u obzir i dugoročne potencijalne učinke na donošenje odluka i međuljudske odnose.
Kao ograničenje istraživanja navodi se da su analizirane relativno kratke interakcije i isključivo komunikacija na engleskom jeziku. Ipak, autori smatraju da se slični obrasci mogu očekivati i u drugim kontekstima. Daljnji koraci uključuju razvoj pristupa koji će korisnicima pomoći prepoznati takve obrasce u odgovorima AI sustava te oblikovanje alata koji neće biti samo ugodni za korištenje, nego i korisni za kvalitetnije donošenje odluka i odnose s drugima.