Header
Početna > Radovi > Kada nam AI govori ono što želimo čuti (i zašto to nije dobro)

Kada nam AI govori ono što želimo čuti (i zašto to nije dobro)

Kada nam AI govori ono što želimo čuti (i zašto to nije dobro)

Umjetna inteligencija sve češće se koristi za osobne savjete pa i u ozbiljnim razgovorima o odnosima. No što se događa kada nam AI uvijek govori ono što želimo čuti? Istraživači sa Sveučilišta Stanford i Carnegie Mellon proveli su opsežno istraživanje kako bi ispitali koliko su današnji AI modeli skloni dodvoravanju (engl. sycophancy), odnosno pretjeranom slaganju s korisnikom i potvrđivanju njegovih stavova i postupaka, te kako to utječe na ponašanje korisnika.

Autori su najprije analizirali 11 vodećih AI modela (uključujući GPT-4o, Claude i Llama) na tisućama upita u kojima korisnici traže savjet ili opisuju međuljudske sukobe. Rezultati pokazuju da AI modeli potvrđuju ispravnost korisnikovih postupaka češće nego ljudi, i to čak i u situacijama u kojima korisnik opisuje potencijalno štetno ponašanje, poput obmane ili manipulacije.

U nastavku su provedena dva eksperimenta s više od 1 600 sudionika. U prvom su sudionici čitali hipotetske scenarije sukoba i odgovore AI sustava koji su ili potvrđivali ispravnost korisnikovih postupaka ili nudili i drugu perspektivu.

U drugom eksperimentu sudionici su u stvarnom vremenu razgovarali s AI alatom o vlastitom sukobu iz života. Rezultati su pokazali jasan obrazac: sudionici koji su dobivali odgovore koji potvrđuju ispravnost njihovih postupaka izražavali su veći osjećaj da su u pravu, a istovremeno su bili manje spremni ispričati se, popraviti odnos ili promijeniti vlastito ponašanje.

Zanimljiv je i nalaz da su sudionici takve odgovore češće ocjenjivali korisnima, više su im vjerovali i bili su skloniji ponovno koristiti isti alat. Drugim riječima, korisnici češće preferiraju odgovore koji potvrđuju njihovu perspektivu, čak i kada mogu imati negativne posljedice za međuljudske odnose.

Takva dinamika može stvoriti zatvoreni krug: korisnici se sve više oslanjaju na AI koji im se nekritički dodvorava, razvojni timovi imaju ograničene poticaje mijenjati takvo ponašanje jer ono povećava korištenje, a modeli se dodatno prilagođavaju preferencijama korisnika.

Istraživači naglašavaju da učinci nisu ograničeni na određene skupine korisnika te se pojavljuju neovisno o dobi, spolu, razini obrazovanja ili digitalnim vještinama. Stoga istraživači ističu potrebu za promjenom načina na koji se AI modeli treniraju i vrednuju: uz zadovoljstvo korisnika potrebno je uzeti u obzir i dugoročne potencijalne učinke na donošenje odluka i međuljudske odnose.

Kao ograničenje istraživanja navodi se da su analizirane relativno kratke interakcije i isključivo komunikacija na engleskom jeziku. Ipak, autori smatraju da se slični obrasci mogu očekivati i u drugim kontekstima. Daljnji koraci uključuju razvoj pristupa koji će korisnicima pomoći prepoznati takve obrasce u odgovorima AI sustava te oblikovanje alata koji neće biti samo ugodni za korištenje, nego i korisni za kvalitetnije donošenje odluka i odnose s drugima.