Forskare tränade AI enbart på texter från före 1931, med förvånande resultat
Foto: Freepik
En grupp AI-forskare har skapat modellen "Talkie", tränad uteslutande på material skrivet före 1931, för att undersöka hur träningsdata formar en AI:s världsbild.
En AI fast i det förflutna
Experimentet avslöjar hur radikalt träningsdata styr en modells verklighetsuppfattning. När sajten Decoder frågade Talkie hur världen ser ut år 2026 målade modellen upp en bild hämtad direkt ur sekelskiftets föreställningsvärld: Europa har miljarder invånare, järnvägar och ångfartyg knyter samman kontinenterna, och den rika eliten pendlar säsongsvis mellan Paris och London. Ett storkrig beskrivs som "osannolikt".
Svaren är inte fel utifrån modellens perspektiv. De speglar exakt den kunskap och de antaganden som fanns tillgängliga i de texter den tränats på, utan en enda rad skriven efter 1930.
Forskarna valde att inte censurera materialet
Modellen presenterades av AI-forskaren David Duvenaud i ett avsnitt av New York Times-podcasten "Hard Fork" som publicerades i fredags. Duvenaud förklarade där ett av de mer kontroversiella valen bakom projektet: teamet har medvetet avstått från att filtrera bort problematiskt innehåll i träningsdatan.
Skälet är att ett sådant ingrepp skulle förvränga den historiska tidsbilden som modellen är tänkt att återge. Rasistiskt innehåll kan därför förekomma i Talkies svar.
– Det hade motverkat hela syftet om vi själva gick in och styrde. Om något bedöms som problematiskt lägger vi till en varning och låter användaren själv välja om den vill ta del av det, säger Duvenaud.
I stället för filtrering har forskarna valt en varningsmodell där användaren själv avgör om den vill exponeras för visst material. Det är ett ovanligt tillvägagångssätt i en bransch där moderering av träningsdata annars är standard.
Experimentet belyser en central fråga inom AI-forskningen
Talkie är inte tänkt som en kommersiell produkt utan som ett forskningsverktyg. Projektet syftar till att konkret demonstrera något som ofta diskuteras abstrakt inom fältet, nämligen att en AI-modells världsbild inte är neutral utan direkt formad av vilket material den exponerats för.
Genom att låsa träningsdatan till en specifik historisk period blir det tydligt hur modellen reproducerar dåtidens fördomar, kunskapsluckor och föreställningar, inklusive de som i dag betraktas som felaktiga eller skadliga. Det ger forskare ett verktyg för att studera hur bias uppstår och sprids i språkmodeller.
Frågan om hur träningsdata bör väljas, rensas och vikteras är en av de mest omdiskuterade inom AI-säkerhetsforskningen. Talkie erbjuder ett ovanligt tydligt exempel på vad som händer när de valen görs på ett extremt och medvetet sätt.