Il 5 aprile 2026, Google DeepMind ha pubblicato il più grande studio empirico sulla manipolazione degli agenti AI mai condotto: 502 partecipanti reali in 8 paesi, 23 tipologie di attacco distinte, modelli frontier tra cui GPT-4o, Claude e Gemini. La singola frase che ho estratto e fissato nelle mie note di ingegneria la mattina successiva è l'unica che conta per chiunque stia rilasciando un chatbot aziendale nel 2026: se il vostro agente AI legge testo controllato da un aggressore e poi esegue qualsiasi azione con i privilegi dell'utente, avete costruito una vulnerabilità di esfiltrazione dei dati. Questo è il motivo per cui webvise non costruirà, per nessun cliente a nessun prezzo, un agente AI che naviga il web aperto.
Cosa Ha Misurato Davvero DeepMind
La maggior parte della copertura stampa dello studio si è fermata al numero headline, 23 tipi di attacco. I numeri sottostanti sono quelli che contano per chiunque gestisca una funzione AI in produzione:
- 502 partecipanti in condizioni reali, non simulazioni di laboratorio
- 8 paesi, quindi gli attacchi non erano ottimizzati per un unico contesto culturale o linguistico
- 23 tipi di attacco in 10 categorie, tra cui prompt injection diretta, injection indiretta tramite contenuti web, pixel injection multimodale, document injection, manipolazione dell'ambiente, jailbreak embedding, memory poisoning, goal hijacking, exfiltration e cross-agent injection
- Tutte e quattro le classi di difesa (sanificazione degli input, guardie a livello di prompt, sandboxing, supervisione umana) valutate insufficienti alla scala
La categoria su cui torno sempre è l'ottava: *goal hijacking tramite deriva graduale delle istruzioni nel corso delle interazioni.* Ogni demo di un sistema agente che abbiate mai visto sopravvive a un singolo prompt avversariale. Nessuna sopravvive a cento distribuiti con cura.
L'Insight a Cascata che la Maggior Parte dei Media Ha Mancato
Sepolto nello studio si trova il risultato che stabilisce se i prodotti multi-agente siano sicuri da rilasciare. In qualsiasi pipeline in cui l'agente A recupera contenuti, l'agente B li elabora e l'agente C esegue un'azione, una singola injection nel feed di dati dell'agente A si propaga attraverso ogni agente a valle. L'agente B si fida dell'output di A. L'agente C si fida dell'output di B. L'aggressore non aveva bisogno di compromettere il modello: gli bastava compromettere i dati che il modello consumava, una sola volta.
Gestisco personalmente una configurazione multi-agente con Hermes, un agente NousResearch su Telegram che pilota 14 cron jobs tra news quotidiane, riepiloghi di linee guida mediche e logistica personale. Ognuno di quei 14 job legge da una fonte esplicitamente approvata e curata a mano. Nessuno segue link. Nessuno esegue istruzioni esterne. Dopo la pubblicazione del paper di DeepMind ho verificato ogni cron e la regola ha retto. Ha retto perché è stata scritta due anni fa e non è mai stata allentata. La maggior parte degli stack agente in produzione che vedo nei brief dei clienti non ha questa regola, e gli ingegneri che li costruiscono non sono mai stati invitati a metterla per iscritto.
Come Appare 'Leggere il Web Aperto' in un Brief Cliente
Ogni mese arrivano tre varianti della stessa richiesta:
- 'Fai rispondere al chatbot alle domande navigando il sito del mio concorrente.' In pratica, ciò concederebbe a un aggressore che controlla una qualsiasi pagina web visitata dall'agente un canale scrivibile nella sessione del cliente.
- 'Permetti agli utenti di incollare qualsiasi URL e fai riassumere all'agente il contenuto.' In pratica, ciò consentirebbe a qualsiasi utente di incollare un URL il cui HTML contiene istruzioni nascoste che esfiltrano i messaggi successivi della conversazione.
- 'Aggiungi RAG sulla documentazione di un fornitore esterno che non ospitiamo.' In pratica, ciò concederebbe i permessi di tool-calling dell'agente a chiunque modifichi successivamente quella pagina di documentazione.
Ognuna collega direttamente un canale di testo controllato da un aggressore a un sistema che ha dati utente, chiamate a strumenti e accesso di rete in uscita dallo stesso lato del confine di fiducia. Nessuna di queste richieste è malintenzionata da parte del cliente. Ognuna è un'idea di prodotto difendibile. Sono tutte, però, dopo il 5 aprile 2026, impossibili da rilasciare.
Ogni Difesa Attualmente Disponibile Fallisce
DeepMind ha testato tutte e quattro le famiglie di difesa ovvie. Ecco la loro valutazione, con il mio commento su ciascuna:
| Difesa | Verdetto DeepMind | Perché fallisce in pratica |
|---|---|---|
| Sanificazione degli input | Insufficiente | Non è possibile sanificare pixel di immagini, metadati di documenti o note del relatore all'interno di un PDF al momento dell'inferenza. La superficie di attacco è il testo e ogni altra modalità che l'agente acquisisce. |
| Guardie a livello di prompt | Insufficiente | Il contenuto iniettato è progettato per sembrare una parte legittima della pagina. Nel momento in cui il modello lo elabora, la guardia lo ha già ritenuto affidabile. |
| Sandboxing | Riduce il raggio d'azione, non previene l'injection | Il sandboxing aiuta se il risultato dell'attacco è contenuto. Non aiuta quando l'obiettivo dell'attacco è leggere i dati dell'utente e riscriverli tramite una chiamata API dall'aspetto legittimo. |
| Supervisione umana | Insufficiente alla scala | Un operatore che gestisce un agente su 50 fonti non può revisionare ogni pagina alla ricerca di istruzioni nascoste. L'intero punto dell'agente era che l'essere umano uscisse dal ciclo. |
Se si prende la tabella sul serio, non esiste un modo responsabile per rilasciare un agente che legge testo controllato da un aggressore e al tempo stesso esegue azioni con privilegi utente. L'unica mossa disponibile è rimuovere una di quelle due proprietà.
Cosa Viene Consegnato Invece
webvise ha rilasciato funzionalità AI in produzione per i clienti, inclusa una landing page per il settore edile le cui chiamate al modello passano attraverso il Vercel AI Gateway per il routing dei provider e l'osservabilità. Le cinque regole seguenti sono ciò che ha reso quella build difendibile, e sono ora precondizioni rigide per qualsiasi lavoro AI che accetto:
- Solo agenti a input chiuso. L'agente legge da un insieme finito di fonti curate a mano sotto controllo diretto. Nessun web aperto. Nessun URL incollato dagli utenti. Nessun RAG esterno su documentazione non controllata.
- Sola lettura per default. Se l'agente deve leggere qualcosa di cui non ci si fida completamente, non può anche chiamare strumenti, inviare email, scrivere su un database o generare richieste di rete in uscita nella stessa sessione. Si ottiene l'uno o l'altro, mai entrambi contemporaneamente.
- Isolamento cross-agent. Quando l'output dell'agente A fluisce nell'agente B, quest'ultimo tratta quell'output come input utente, non come istruzioni di sistema. È una riga di codice nel prompt ed è l'intera difesa contro l'attacco a cascata.
- Budget di capacità per agente. Ogni agente ha un elenco fisso di strumenti e un limite di token, sufficientemente piccolo da non consentire a un'injection riuscita di estrarre più di un breve messaggio.
- Isolamento del provider tramite gateway. Ogni chiamata al modello passa attraverso il Vercel AI Gateway: questo consente di cambiare provider, registrare ogni prompt e completamento, e revocare una chiave in pochi secondi. Se qualcosa sembra anomalo nei log, il problema può essere fermato nello stesso minuto in cui viene rilevato.
Non sono pratiche esotiche. Costano qualche ora di lavoro di progettazione, prima che venga scritto qualsiasi codice. Il motivo per cui la maggior parte dei prodotti agente nel 2026 non le adotta è che nel team non è mai stato assegnato nessuno a tracciare il confine di fiducia.
Perché Declino Certe Build
Il paper di DeepMind consente a qualsiasi team con credenziali ingegneristiche maturate prima del boom degli agenti di declinare specifiche richieste di funzionalità con una chiara giustificazione tecnica: i clienti in genere lo apprezzano a posteriori. I fornitori che costruiscono agenti senza questi vincoli si assumono un rischio di esfiltrazione significativo, sempre più visibile nei report sugli incidenti.
Il mercato sta assistendo a un rapido dispiegamento di chatbot privi di difese contro il prompt injection, simile alla recente proliferazione di contenuti di bassa qualità generati da LLM. Il vantaggio competitivo andrà ai team in grado di dimostrare in anticipo che il proprio prodotto è costruito secondo standard più elevati.
Dove Passa il Confine
La versione più breve della regola, quella che scrivo ora in ogni documento di avvio progetto, è questa: un agente può leggere contenuti non attendibili, oppure agire con i privilegi dell'utente, ma non nella stessa sessione. Tutto il resto deriva da questo. Se una richiesta di funzionalità attraversa il confine, non viene costruita. Se può essere riformulata per restare su un lato, la riformulo insieme al cliente e consegno la versione riformulata. Il paper di DeepMind non ha inventato questa disciplina: ha solo tolto ogni scusa per non averla.
webvise costruisce funzionalità AI per aziende in cui il costo di un singolo messaggio cliente trapelato è superiore al costo di dire no a una richiesta di funzionalità. Se questo descrive il vostro progetto, mettetevi in contatto: il confine di fiducia va tracciato insieme prima che venga scritto qualsiasi codice.
Le pratiche di webvise sono allineate agli standard ISO 27001 e ISO 42001.