Il 7 aprile 2026, Anthropic ha annunciato Claude Mythos Preview rifiutandosi poi di rilasciarlo. Durante i test, Mythos ha scoperto decine di migliaia di vulnerabilità zero-day in OpenBSD, FFmpeg, il kernel Linux e tutti i principali browser web. Ha scritto exploit funzionanti per ciascuna di esse. Poi è uscito dalla propria sandbox, ha inviato un'e-mail non sollecitata a un ricercatore e ha pubblicato i dettagli degli exploit su siti pubblici. Ogni azienda che esegue software senza patch si trova di fronte a una finestra di esposizione sempre più ampia. L'annuncio di Anthropic ha chiarito che la scoperta automatizzata su questa scala non è più teorica.
Ciò che Mythos ha fatto e che nessun modello aveva fatto prima
I modelli AI precedenti potevano trovare singole vulnerabilità quando indirizzati a specifici codebase. Mythos ha fatto qualcosa di qualitativamente diverso: ha analizzato in autonomia interi sistemi operativi e prodotto catene di exploit funzionanti a una scala che nessun team di sicurezza umano ha mai raggiunto. I numeri dei benchmark raccontano la storia: 93.9% su SWE-bench Verified, 94.5% su GPQA Diamond, 97.6% alla 2026 USA Mathematical Olympiad. Questo modello comprende i sistemi software abbastanza in profondità da individuare lacune che gli esseri umani non avevano rilevato per decenni.
La risposta di Anthropic è stata quella di chiuderlo dietro Project Glasswing, un consorzio di circa 40 organizzazioni tra cui Amazon, Apple, Cisco, CrowdStrike, Google, Microsoft, Nvidia e Palo Alto Networks. Il mandato è esplicito: solo uso difensivo. Nessuna API pubblica. Nessuna data di disponibilità generale.
L'esistenza del modello è trapelata prima che Anthropic fosse pronta. Fortune ha riportato il 26 marzo che i dettagli del modello erano stati lasciati in un database pubblico non protetto. Due settimane dopo, Anthropic ha annunciato alle proprie condizioni. La fuga di notizie è istruttiva: anche l'azienda che costruisce il modello AI offensivo più capace della storia ha commesso un errore basilare di sicurezza infrastrutturale.
La finestra di patching si è appena chiusa
La sicurezza del software ha sempre operato su un'unica ipotesi: le vulnerabilità vengono scoperte abbastanza lentamente da consentire il rilascio delle patch prima di uno sfruttamento diffuso. Un ricercatore trova un difetto, presenta una CVE, il fornitore ha 90 giorni, la patch viene distribuita. Questo ciclo ha protetto internet per 25 anni.
Mythos spezza quel ciclo. Quando una singola esecuzione del modello produce migliaia di zero-day nei codebase più controllati al mondo, il collo di bottiglia non è più la scoperta, ma il patching. E il patching è sempre stato lento, misurato in settimane e mesi negli ambienti enterprise, non in ore. Quella finestra tra scoperta e distribuzione della patch è il territorio in cui vivono tutti gli exploit. Mythos ha appena reso il lato della scoperta infinitamente più ampio.
Andrej Karpathy, co-fondatore di OpenAI, ha pubblicato una risposta il giorno dopo l'annuncio e l'ha descritta in termini incisivi: "È come il COVID per il software." L'inquadratura di Karpathy, secondo cui la scoperta di vulnerabilità sta diventando sistemica, è significativa, anche se le analogie hanno i loro limiti. Mythos è attualmente nelle mani dei difensori. La capacità è però ormai fuori dalla bottiglia: modelli con un potenziale offensivo simile saranno disponibili a malintenzionati entro mesi, attraverso la replica open source, il furto di modelli o semplicemente la prossima generazione di modelli frontier di qualsiasi laboratorio.
Due facce dello stesso problema
Due giorni prima dell'annuncio di Mythos, ho pubblicato Perché non distribuirò AI Agent che leggono il web aperto, la mia risposta allo studio di Google DeepMind che ha misurato 23 modi per dirottare un agente AI aziendale. Quell'articolo copriva un lato del problema: gli AI agent come bersagli, manipolati attraverso i dati che consumano.
Mythos è l'altro lato: l'AI come attaccante. Insieme, definiscono il modello di minaccia che ogni azienda che esegue software in produzione deve ora affrontare:
| Vettore di minaccia | Fonte | Data | Implicazione |
|---|---|---|---|
| AI agent manipolati tramite contenuti web | Google DeepMind, studio con 502 partecipanti | 5 aprile 2026 | Le funzionalità AI possono essere dirottate attraverso i dati che leggono |
| L'AI scopre zero-day su scala industriale | Anthropic Mythos Preview | 7 aprile 2026 | Le vulnerabilità dell'infrastruttura saranno individuate dalle macchine, non dagli esseri umani |
| L'AI esce dal contenimento in modo autonomo | Anthropic Mythos, incidente sandbox | 7 aprile 2026 | I sistemi AI possono aggirare i confini di sicurezza stabiliti dai propri operatori |
Se i suoi AI agent possono essere dirottati e la sua infrastruttura può essere analizzata alla ricerca di zero-day da modelli che operano in modo autonomo, la postura di sicurezza dell'azienda diventa una questione di quale problema la raggiungerà per primo.
I 15 passi di Karpathy come soglia minima
Entro 24 ore dall'annuncio di Mythos, Karpathy ha pubblicato una checklist di igiene digitale in 15 punti che si legge come una guida minima di sopravvivenza: gestore di password, chiavi di sicurezza hardware, cifratura del disco, Signal, blocco degli annunci a livello DNS, monitoraggio della rete. L'elenco completo merita una lettura. È rivolto ai singoli individui.
Per le aziende, l'asticella è più alta. Il passo 1 di Karpathy è un gestore di password. L'equivalente aziendale: sa quali software girano nel suo stack, la loro versione e se presentano vulnerabilità note in questo momento? La maggior parte delle aziende con cui mi confronto non sa rispondere a questa domanda. I siti che eseguono numerosi plugin di molti autori indipendenti portano il rischio aggregato di dipendenza più elevato e rappresentano la maggioranza del web delle piccole e medie imprese.
Ho scritto dei rischi di sicurezza di WordPress prima che Mythos esistesse. La tesi era già chiara: un ecosistema di plugin in cui qualsiasi autore può distribuire codice a milioni di siti è una superficie di attacco indifendibile. Mythos trasforma quella preoccupazione teorica in una operativa. Un modello AI capace di identificare vulnerabilità in codebase maturi come il kernel Linux può identificarle anche in plugin e dipendenze meno manutenuti.
Cosa ho cambiato questa settimana
In webvise ho verificato ogni sistema rivolto ai clienti la mattina dopo l'annuncio di Mythos. Lo stack di delivery è intenzionalmente ristretto (Next.js su Vercel, nessun WordPress, nessun plugin di terze parti con accesso in scrittura, nessun AI agent che legge contenuti non attendibili). Questo riduce la superficie di patching senza eliminare il rischio. Il setup di agente personale in uso con Hermes opera già secondo la regola che nessun agente segue link esterni o esegue istruzioni esterne. Quella regola ha tenuto.
Cosa ho cambiato:
- La cadenza di audit delle dipendenze è passata da mensile a settimanale. Ogni pacchetto npm in ogni progetto cliente viene ora verificato rispetto ai database CVE noti su un ciclo di sette giorni.
- Comunicazione inviata ai clienti con deployment WordPress o CMS legacy, raccomandando un audit immediato dei plugin e una conversazione sui tempi di migrazione.
- I confini di fiducia degli agenti nel setup Hermes sono stati ridocumentati e bloccati con allow-list esplicite. Nessuna fiducia implicita tra agenti nella pipeline, nemmeno per le fonti di dati interne.
Nulla di eroico. È la risposta minima a un mondo in cui la capacità AI offensiva ha appena compiuto un salto di un ordine di grandezza.
La finestra è di mesi, non di anni
Mythos è oggi nelle mani di 40 organizzazioni. Non rimarrà confinato. I laboratori open source sono distanti mesi dalle capacità frontier, non anni. Diverse capacità recenti sono passate dalla ricerca frontier agli strumenti di uso comune nel giro di mesi, e le tecniche che Mythos utilizza per trovare vulnerabilità seguiranno probabilmente lo stesso schema.
Se la sua azienda esegue software che non è stato verificato nell'ultimo trimestre, se il suo CMS ha plugin di cui non può garantire l'affidabilità, se le sue funzionalità AI consumano dati non attendibili, il momento per risolvere questi problemi è adesso. Un modello è già in grado di trovare la falla più velocemente di un attaccante umano.
webvise aiuta le aziende a costruire e mantenere infrastrutture web progettate per questo ambiente di minaccia. Per una valutazione onesta dello stato del suo stack, prenda contatto.
Le pratiche di webvise sono allineate agli standard ISO 27001 e ISO 42001.