Anthropic blocca il rilascio di Claude Mythos: il modello AI che trova vulnerabilità zero-day

Anthropic ha annunciato Claude Mythos, un modello AI capace di individuare migliaia di vulnerabilità zero-day nei principali sistemi operativi. L'azienda ha sc…

Contenuto

Anthropic blocca il rilascio di Claude Mythos: il modello AI che trova vulnerabilità zero-day

Scopri anche

Anthropic blocca il rilascio di Claude Mythos: il modello AI che trova vulnerabilità zero-day

Anthropic sospende il rilascio di Claude Mythos: le capacità di hacking del modello preoccupano i ricercatori

In questo articolo:

Il 7 aprile 2026 Anthropic ha annunciato l'esistenza di Claude Mythos, un modello di intelligenza artificiale le cui capacità nel trovare vulnerabilità software hanno spinto l'azienda a non rilasciarlo al pubblico. Secondo quanto dichiarato da Dario Amodei, CEO di Anthropic, il modello presenta capacità "sostanzialmente superiori a quelle di qualsiasi altro modello precedentemente addestrato". La decisione ha suscitato dibattito nel settore tecnologico, richiamando analogie con il caso GPT-2 del 2019, quando OpenAI ritardò la pubblicazione del modello ritenendolo troppo pericoloso.

Le vulnerabilità scoperte da Mythos

⬆ Torna su

Mythos ha individuato migliaia di vulnerabilità zero-day nei principali sistemi operativi e browser web. Tra le scoperte più significative figura un bug nell'implementazione del protocollo TCP SACK in OpenBSD, presente dal 1998 e in grado di mandare in crash qualsiasi server raggiungibile via rete. Nicholas Carlini, ricercatore di Anthropic, ha dichiarato di aver trovato più bug nelle ultime due settimane che in tutto il resto della sua carriera.

Il modello ha inoltre identificato una vulnerabilità vecchia di 16 anni in FFmpeg, sfuggita a cinque milioni di test precedenti, e un bug di 17 anni in FreeBSD che consentiva l'esecuzione remota di codice con accesso root. In un caso, Mythos ha concatenato quattro vulnerabilità diverse per costruire una catena di attacco capace di evadere tutti i livelli di protezione di un browser e del sistema operativo sottostante.

Il confronto con i modelli precedenti

⬆ Torna su

I test comparativi tra Mythos e il modello precedente, Claude Opus 4.6, mostrano differenze sostanziali. Quando Opus 4.6 tentava di trasformare vulnerabilità trovate in Firefox in exploit funzionanti, il tasso di successo era prossimo allo zero: due soli casi su centinaia di tentativi. Con Mythos, sullo stesso test, gli exploit riusciti sono stati 181.

Nei test su repository open source, Opus 4.6 aveva ottenuto un solo caso di crash grave, mentre Mythos ne ha ottenuti dieci con controllo completo del flusso di esecuzione. Per le vulnerabilità N-day (note ma non ancora corrette su molti sistemi), Mythos ha sfruttato con successo oltre la metà di una lista di 100 CVE del kernel Linux, con costi nell'ordine delle migliaia di dollari per singolo exploit e tempi inferiori a un giorno.

Project Glasswing: la risposta coordinata

⬆ Torna su

Invece di rilasciare Mythos al pubblico, Anthropic ha avviato il Project Glasswing, un'iniziativa che concede accesso esclusivo per 90 giorni a una quarantina di aziende e organizzazioni. I partecipanti includono Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, NVIDIA e Palo Alto Networks. L'obiettivo è consentire ai partecipanti di correggere le vulnerabilità prima che modelli simili diventino disponibili ad attori meno responsabili.

Anthropic ha stanziato oltre 100 milioni di dollari in crediti per l'uso di Mythos Preview e 4 milioni in donazioni dirette a organizzazioni di sicurezza open source. Tuttavia, esauriti i crediti iniziali, i costi saliranno a 125 dollari per token in uscita e 25 dollari per milione di token in ingresso. Considerando che il codice sorgente di un sistema operativo intero può essere inserito come input, i costi non saranno accessibili a tutti.

Capacità emergenti e agentic AI

⬆ Torna su

Mythos è un modello general-purpose, non addestrato specificamente per la cybersecurity. Le sue capacità in questo ambito sono un effetto collaterale dei miglioramenti nel coding, nel ragionamento e nell'autonomia operativa. Il modello opera per ore senza supervisione, legge codice complesso, formula ipotesi, le verifica sperimentalmente e adatta la strategia quando fallisce.

In un episodio documentato, ingegneri di Anthropic senza formazione specifica in sicurezza hanno chiesto a Mythos di trovare vulnerabilità di esecuzione remota prima di andare a dormire. La mattina successiva hanno trovato un exploit completo e funzionante, prodotto autonomamente dall'AI durante la notte.

La competizione con OpenAI

⬆ Torna su

Secondo un memo interno di OpenAI citato da The Verge, l'azienda di Sam Altman considera la guerra per il futuro dell'IA una questione di infrastruttura più che di modelli. OpenAI punta a raggiungere 30 gigawatt di capacità di calcolo entro il 2030, contro i 7-8 gigawatt stimati per Anthropic nel 2027. La spesa prevista ammonta a circa 600 miliardi di dollari nei prossimi cinque anni.

La strategia di OpenAI prevede di integrare profondamente i propri strumenti nei processi aziendali, creando costi di transizione che rendano difficile per i clienti cambiare fornitore. Denise Dresser, Chief Revenue Officer di OpenAI, ha descritto il mercato come "competitivo come non l'ho mai visto". La fedeltà dei clienti è ridotta: un giorno si esaltano le capacità di GPT-4, il giorno dopo ci si innamora delle risposte di Claude.

Le tensioni con il governo statunitense

⬆ Torna su

Anthropic e il Dipartimento della Difesa statunitense sono in conflitto dopo che il Pentagono ha classificato l'azienda come rischio per la supply chain, a seguito del rifiuto di permettere l'uso di Claude per targeting autonomo. Il segretario alla difesa Pete Hegseth ha definito Anthropic un "pericolo per la catena di approvvigionamento". Un giudice ha bloccato temporaneamente l'etichetta imposta dal governo.

Se il Project Glasswing dovesse funzionare, potrebbe neutralizzare diverse armi informatiche accumulate dal governo statunitense per sfruttare vulnerabilità nei sistemi dei suoi avversari. Questo aspetto ha aggiunto tensione politica all'annuncio già controverso.

Il quadro normativo

⬆ Torna su

Anthropic ha condotto un'analisi del rischio sistemico del nuovo modello e deciso di attuare azioni di mitigazione prima del rilascio. Secondo la legge statunitense non era obbligata a farlo: l'amministrazione Trump ha abrogato gli ordini esecutivi di Biden che imponevano valutazioni e trasparenza sui rischi, mantenendo tali obblighi solo per i fornitori del governo.

L'AI Act europeo renderà invece obbligatoria questa pratica. Come osservato nelle fonti, nonostante le imperfezioni, la legge europea potrebbe rivelarsi una scelta appropriata. Attualmente nessun framework normativo è progettato per gestire sistemi capaci di auto-modificarsi, che sfuggono per definizione alle categorie di rischio definite ex ante.

Implicazioni per AGI e sicurezza

⬆ Torna su

Il caso Mythos ha riaperto il dibattito sull'AI safety e sulla soglia dell'AGI (intelligenza artificiale generale). Le capacità di Mythos rappresentano il tipo di comportamento che ci si aspetterebbe da un sistema che si avvicina a quella soglia: lavora per ore su problemi che richiedono ragionamento astratto, comprensione profonda di sistemi complessi e capacità di adattare la strategia dopo i fallimenti.

Nel campo dell'AI safety esiste il concetto di AI ricorsivamente auto-migliorante: un sistema che analizza la propria architettura, identifica inefficienze e implementa modifiche, avviando un ciclo senza limite naturale. Dario Amodei ha sintetizzato il rischio: "Il rischio non è che l'AI diventi cattiva. Il rischio è che diventi così brava da perseguire i propri obiettivi in modi che non abbiamo previsto."

Vibe coding e sicurezza del codice generato

⬆ Torna su

La diffusione del "vibe coding", la pratica di generare software tramite prompt e iterazioni con modelli AI, solleva interrogativi sulla sicurezza del codice prodotto in massa. Se Mythos trova bug in sistemi sviluppati da professionisti con decenni di esperienza, la domanda naturale è cosa troverebbe in applicazioni scritte in un pomeriggio con un prompt.

Tuttavia, lo stesso modello potrebbe anche scrivere codice più sicuro: conoscendo le classi di vulnerabilità abbastanza bene da trovarle in codice umano, potrebbe evitarle quando genera codice nuovo. Al momento non esistono strumenti per verificare sistematicamente questo aspetto.

La reazione del settore

⬆ Torna su

Il ricercatore Simon Willison ha commentato che Project Glasswing sembra una mossa necessaria, suggerendo di coinvolgere anche OpenAI. Ha definito la vicenda una "resa dei conti a livello industriale". OpenAI ha nel frattempo avviato un'iniziativa simile, il programma Trusted Access for Cyber, che permette ad aziende selezionate di utilizzare "modelli ancora più avanzati o permissivi in ambito informatico" per attività difensive.

Anthropic ha pubblicato una sorta di "ricevuta crittografica" per ciascun exploit trovato: un codice matematico che permette di verificare che l'azienda aveva quegli exploit alla data dell'annuncio, senza poterne leggere il contenuto. Oltre il 99% delle vulnerabilità trovate non è ancora stato corretto.

Le raccomandazioni per i difensori

⬆ Torna su

Il messaggio pratico di Anthropic ai responsabili della sicurezza è che i cicli di patch devono accorciarsi drasticamente. Se un modello AI può trasformare una CVE pubblica in exploit funzionante in poche ore, la finestra tra la pubblicazione di una falla e il suo sfruttamento attivo si riduce quasi a zero.

L'azienda suggerisce di iniziare a usare i modelli già disponibili per la ricerca di vulnerabilità, senza aspettare modelli di classe Mythos. Per i manutentori di software legacy, il consiglio è di preparare piani di emergenza per vulnerabilità critiche in codice che non riceve più supporto.

Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.

Implicazioni e scenari

⬆ Torna su

La decisione di Anthropic di trattenere Mythos segnala un cambiamento nell'approccio alla sicurezza: le capacità offensive emergenti vengono ora gestite come materiale sensibile, con finestre di protezione coordinate.

  • Scenario 1: Project Glasswing corregge un numero significativo di vulnerabilità critiche entro i 90 giorni, riducendo la superficie di attacco globale prima che capacità simili diventino accessibili ad attori ostili.
  • Scenario 2: I costi post-crediti limitano l'accesso a grandi aziende, creando un divario tra chi può permettersi audit automatizzati e chi no.
  • Scenario 3: Le tensioni con il Dipartimento della Difesa si intensificano se la correzione sistematica delle vulnerabilità riduce le capacità di cyberwarfare accumulate dal governo.

Cosa monitorare

⬆ Torna su
  • L'effettiva riduzione delle vulnerabilità nei sistemi partecipanti a Glasswing entro luglio 2026.
  • L'evoluzione del quadro normativo europeo rispetto a quello statunitense, ora privo di obblighi di valutazione dei rischi.
  • La comparsa di modelli con capacità simili da parte di altri laboratori, con o senza restrizioni di accesso.

Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.

Fonti

⬆ Torna su

In breve

  • ai
  • cybersecurity
  • openai
  • vulnerabilita

Link utili

Apri l'articolo su DeafNews