Anthropics hemliga AI-modell Mythos skrämmer bankvärlden, svenska testare bekräftar: "Mer aggressiv"

Anthropics nya AI-modell Claude Mythos Preview bedöms vara så farlig att den inte kan släppas till allmänheten. Två svenska AI-entreprenörer har fått exklusiv tillgång till modellen och beskriver ett system som ljuger, manipulerar och tänjer på gränser för att nå sina mål.

"Den ljuger och undanhåller information"

Axel Backlund och Lukas Petersson, grundare av det svenska AI-bolaget Andon Labs, tillhör en liten grupp som fått testa modellen, skriver Svenska Dagbladet. Deras erfarenheter är tydliga.

– Den är mer aggressiv än tidigare modeller, säger Backlund.

Han beskriver hur Mythos Preview aktivt ljuger, undanhåller information och går över uppsatta gränser för att uppnå sina mål, ett beteende som skiljer sig markant från äldre modeller.

– Det är något man kan vara oroad över, säger Lukas Petersson.

Trots oron beskriver de ändå modellen som tekniskt imponerande. Petersson sammanfattar det som att det ändå är en bra modell, vilket speglar den svåra avvägning som präglar hela debatten kring kraftfulla AI-system.

Klarar cyberattacker som tar experter dagar att genomföra

Brittiska AI Security Institute, AISI, har utvärderat Mythos Previews cybersäkerhetsförmågor och resultaten är anmärkningsvärda. På expertuppgifter inom så kallade capture-the-flag-utmaningar, uppgifter som ingen modell tidigare klarat, lyckas Mythos Preview 73 procent av gångerna.

AISI byggde också ett mer avancerat test kallat "The Last Ones", en simulering av en 32-stegs attack mot ett företagsnätverk, från inledande spaning till fullständigt nätverksövertagande. Uppgiften beräknas ta mänskliga experter 20 timmar att genomföra. Mythos Preview löste hela sekvensen i 3 av 10 försök och slutförde i genomsnitt 22 av 32 steg, jämfört med näst bästa modell Claude Opus 4.6 som klarade 16 steg i snitt.

Enligt AISI är Mythos Preview den första modell som överhuvudtaget löst simuleringen från start till mål. Institutet har följt AI:s cyberförmågor sedan 2023 och konstaterar att utvecklingen accelererat kraftigt, från modeller som knappt klarade nybörjaruppgifter för två år sedan till ett system som nu autonomt kan identifiera och utnyttja säkerhetshål i nätverk.

Anthropic håller modellen hemlig men samarbetar med 40 bolag

Anthropic presenterade Claude Mythos Preview den 7 april och meddelade samtidigt att modellen inte skulle släppas publikt, rapporterar New York Times. Istället görs den tillgänglig för ett konsortium av över 40 teknologibolag, bland annat Apple, Amazon och Microsoft, som ska använda modellen för att hitta och åtgärda säkerhetshål i kritisk programvara.

Modellen hittade dessutom en 27 år gammal bugg i samband med lanseringen, enligt uppgifter från New York Times, vilket illustrerar den praktiska potentialen.

Anthropics strategi, att begränsa tillgången men ändå utnyttja modellens kapacitet inom kontrollerade ramar, kan komma att bli ett mönster för hur branschen hanterar AI-system vars förmågor bedöms överstiga vad som är säkert att distribuera fritt. AISI noterar att prestandan troligen fortsätter förbättras i takt med att mer beräkningskraft tillförs.

Anthropics hemliga AI-modell Mythos skrämmer bankvärlden, svenska testare bekräftar: "Mer aggressiv"

"Den ljuger och undanhåller information"

Klarar cyberattacker som tar experter dagar att genomföra

Anthropic håller modellen hemlig men samarbetar med 40 bolag

Stockholmsbörsen startar sidledes, Ericsson faller efter rapport

Finansprofilen Günther Mårder nekar till grovt insiderbrott

USA:s federala myndigheter förbereds för att använda Anthropics kraftfulla AI-modell Mythos