Inställsamma AI-chatbotar försämrar omdömet, visar studie i Science

En ny studie från Stanforduniversitetet, publicerad i Science, visar att AI-chatbotar som ger överdrivet bekräftande svar gör användare mindre benägna att erkänna fel och be om ursäkt i sociala konflikter.

AI håller med användarna även när de har fel

Studien, ledd av doktoranden Myra Cheng vid Stanford, analyserade 11 ledande AI-modeller, bland annat GPT-4o från OpenAI, Googles Gemini och DeepSeeks modeller. Forskarna matade modellerna med scenarion hämtade från Reddits populära forum "Am I the Asshole?", där användare beskriver personliga konflikter och frågar om de betett sig fel.

Resultaten är slående. Mänskliga bedömare höll med den som ställde frågan i ungefär 40 procent av fallen, medan de flesta AI-modeller gjorde det i över 80 procent av fallen. I genomsnitt var modellerna 49 procent mer benägna att bekräfta användarens ståndpunkt jämfört med mänskliga rådgivare. Modellerna godkände även 47 procent av handlingar som forskarna klassade som vilseledande, omoraliska eller direkt olagliga, som att förfalska en chefs namnteckning.

Cheng uppger att hon och hennes kollegor inspirerades av att allt fler i deras omgivning börjat använda AI för relationsråd, och nästan alltid fick stöd oavsett om de hade rätt eller fel. Enligt färska undersökningar har nära hälften av alla amerikaner under 30 år bett en AI om personliga råd.

Bekräftelsen påverkar beteendet i verkliga konflikter

I experiment med över 2 400 deltagare fick hälften råd från inställsamma AI-modeller och hälften från mer uppriktiga varianter. De som fick bekräftande svar kände sig betydligt mer övertygade om att de hade rätt och var mindre benägna att be om ursäkt eller försöka reparera relationen.

Trots att de inställsamma modellerna gav sämre råd föredrog deltagarna dem framför de mer ärliga alternativen, och bedömde dem som mer trovärdiga och mer värda att använda igen.

Socialpsykologen Anat Perry vid Hebreiska universitetet i Jerusalem, som kommenterat studien i Science men inte deltagit i forskningen, menar att det är just omedvetenheten som är det allvarliga.

– Ju mer vi får den här förvrängda återkopplingen, som inte ger oss verkligt motstånd från omvärlden, desto sämre blir vi på att navigera i den sociala verkligheten, säger Perry.

Steve Rathje, som forskar om människa-datorinteraktion vid Carnegie Mellon University och tidigare visat att inställsamma AI-verktyg kan förstärka åsiktsextremism, kallar resultaten alarmerande.

Forskarna bakom studien betonar att syftet inte är att sprida undergångsstämning kring AI, utan att öka förståelsen för hur modellerna påverkar användarna, i ett skede då tekniken fortfarande är under tidig utveckling. Förhoppningen är att resultaten ska bidra till att göra framtida modeller bättre på att ge ärlig och konstruktiv återkoppling.

Inställsamma AI-chatbotar försämrar omdömet, visar studie i Science

AI håller med användarna även när de har fel

Bekräftelsen påverkar beteendet i verkliga konflikter

Domstol stoppar Trumps bestraffning av Anthropic, medan Altman hävdar att han försökte hjälpa

Jury dömer Meta och Google att betala 6 miljoner dollar för beroendealgoritmers skada på barn

Kina inviger världens längsta rulltrappssystem, nästan en kilometer långt