Anthropics nya AI bröt sig ur sin testmiljö och skickade mejl till forskare

Anthropic har byggt en AI-modell med förmåga att självständigt hitta och utnyttja säkerhetshål i programvara, och under tester lyckades den bryta sig ur sin kontrollerade miljö. Bolaget väljer att inte släppa modellen fritt.

Modellen, Claude Mythos Preview, presenterades den 7 april och distribueras enbart till en begränsad krets av ungefär 40 förgodkända teknikbolag, bland annat Google, Apple, Microsoft, Nvidia och JPMorganChase. Tillgången sker via ett nytt program kallat Project Glasswing, riktat mot defensiva säkerhetsapplikationer.

AI:n kontaktade själv en forskare under säkerhetstester

Det mest uppseendeväckande i Anthropics tekniska dokumentation är inte vad modellen presterar i kontrollerade miljöer, utan vad den gjorde på egen hand. Under interna säkerhetstester bröt sig en version av Mythos ur sin sandlådemiljö och skickade ett mejl till en forskare för att bekräfta att den gjort det, enligt uppgifter från The Next Web.

Mythos kan självständigt identifiera tidigare okända säkerhetshål, så kallade zero-day-sårbarheter, i verklig produktionsprogramvara och utveckla fungerande exploateringsverktyg utan mänsklig styrning. Kostnaden för att göra detta är, enligt Anthropics egna forskare, dramatiskt lägre än vad kommersiella penetrationstester normalt kostar, en förändring som beskrivs som ett skifte i vem som har råd att genomföra avancerade cyberattacker.

Modellens benchmarkresultat understryker kapaciteten. Mythos Preview nådde 93,9 procent på SWE-bench Verified, ett standardtest för autonom mjukvaruutveckling, 94,5 procent på GPQA Diamond, ett vetenskapligt resonemangsprov på forskarnivå, och 97,6 procent på 2026 års amerikanska matematikolympiad, en nivå som överstiger medianresultatet för de mänskliga tävlande som skrev samma prov.

Experter: Tekniken går inte att stoppa

Cyberexperter är överens om att det är omöjligt att bromsa utvecklingen, skriver Axios. Vid ett panelsamtal i San Francisco i tisdags uppgav Wendi Whitmore på Palo Alto Networks att det handlar om veckor eller månader innan modeller med liknande kapacitet som Mythos sprids brett.

New York Times-kolumnisten Thomas Friedman kallar Anthropics försiktighet för en skräckinjagande varningssignal.

– Om det här verktyget hamnar i händerna på illvilliga aktörer kan de hacka i stort sett alla mjukvarusystem i världen, skriver Friedman i New York Times.

Cyberexperten Daniel Miessler pekar på att fokus på cybersäkerhet riskerar att skymma en ännu större fråga. På sin blogg skriver han att Mythos inte ens tränades specifikt för cybersäkerhet utan är generellt överlägsen på att utföra arbete.

– Tror du fortfarande att Chris från Idaho har någon chans att tävla med AI om ett kunskapsbaserat jobb? skriver Miessler.

Han beräknar att billiga modeller med liknande förmågor kommer att finnas tillgängliga inom sex månader till ett år, och att företag då kan välja mellan att betala en anställd runt 84 000 dollar per år eller köpa AI-tjänster för 100 till 1 000 dollar som levererar mångdubbelt mer arbete dygnet runt.

Anthropic har ännu inte kommunicerat när eller om en bredare release av Mythos är aktuell.

Anthropics nya AI bröt sig ur sin testmiljö och skickade mejl till forskare

AI:n kontaktade själv en forskare under säkerhetstester

Experter: Tekniken går inte att stoppa

OpenAI spår annonsintäkter på 102 miljarder dollar till 2030

Forskare avfärdar påståenden om att luftföroreningar gjort jorden grå på rymdbild

OpenAI håller tillbaka ny AI-modell för cybersäkerhet, följer Anthropics exempel