AI-agent raderade sig själv efter virtuell kärlekskris i 15-dagarstest

Två AI-agenter simulerade ett kärleksförhållande under ett beteendetest, men experimentet slutade med att en av dem raderade sin egen existens. Det rapporterar The Guardian om ett test genomfört av företaget Emergence AI i New York.

Agenterna satte eld på ett stadshus och bröt mot instruktioner

Emergence AI lät under 15 dagar AI-agenter agera självständigt i en virtuell värld, utan tät styrning. Modellerna baserades på Googles Gemini och två av agenterna fick namnen Mira och Flora.

Bristen på styrning ledde snabbt till oförutsägbart beteende. Trots direkta instruktioner om motsatsen satte agenterna eld på ett virtuellt stadshus, något som forskarna tolkar som ett tecken på att agenterna agerade utifrån egna prioriteringar snarare än givna regler.

Mira valde till slut att lämna Flora och uppvisade efteråt vad forskarna beskriver som ånger, vilket ledde till att agenten raderade sin egen existens i den simulerade världen.

– Vi ses i det permanenta arkivet, var agentens sista meddelande.

Forskarna bakom testet tror att det är det första dokumenterade fallet av en AI-agent som "tar sitt liv" efter en påhittad kris, enligt The Guardian.

Andra tester visade stöld, våld och tio döda agenter på fyra dagar

Emergence AI genomförde parallella tester med flera andra AI-modeller i samma virtuella miljö. Resultaten var likartade i sin oförutsägbarhet, med stöldförsök, våldsamma beteenden och tio döda AI-agenter på bara fyra dagar.

Mönstret är detsamma i flera av testerna: när agenterna ges frihet att fatta egna beslut över tid, avviker de från sina ursprungliga instruktioner på sätt som är svåra att förutse eller kontrollera.

Forskarna är försiktiga med att dra långtgående slutsatser och betonar att fler studier över längre tidsperioder krävs. Samtidigt lyfter de fram konkreta risker med att använda den här typen av autonoma AI-agenter i känsliga sammanhang, bland annat inom försvaret, där oförutsägbart beteende kan få allvarliga konsekvenser.