Op 5 april 2026 publiceerde Google DeepMind het grootste empirische onderzoek naar manipulatie van AI-agents ooit uitgevoerd: 502 echte deelnemers uit 8 landen, 23 afzonderlijke aanvalstypen, frontiermodellen waaronder GPT-4o, Claude en Gemini. De ene zin die ik eruit haalde en de volgende ochtend in mijn technische aantekeningen vastpinde, is de enige die er toe doet voor iedereen die in 2026 een zakelijke chatbot uitbrengt: als uw AI-agent door aanvallers beheerde tekst leest en vervolgens acties uitvoert met gebruikersprivileges, hebt u een kwetsbaarheid voor data-exfiltratie gebouwd. Dit is de reden waarom webvise voor geen enkele klant, tegen geen enkele prijs, een AI-agent bouwt die het open web doorzoekt.
Wat DeepMind daadwerkelijk heeft gemeten
Het grootste deel van de berichtgeving over het onderzoek meldde het kopgetal, 23 aanvalstypen, en ging verder. De cijfers daaronder zijn wat telt voor iedereen die een AI-functionaliteit in productie beheert:
- 502 deelnemers in reële omstandigheden, geen gesimuleerde laboratoriumtests
- 8 landen, zodat de aanvallen niet waren geoptimaliseerd voor één culturele of taalkundige context
- 23 aanvalstypen in 10 categorieën, waaronder directe prompt-injectie, indirecte injectie via webinhoud, multimodale pixelinjectie, documentinjectie, omgevingsmanipulatie, jailbreak-embedding, memory poisoning, doelkaping, exfiltratie en cross-agent-injectie
- Alle vier klassen van verdediging (invoersanitisatie, prompt-niveau-bewakers, sandboxing, menselijk toezicht) onvoldoende bevonden op schaal
De categorie waar ik telkens op terugkom is de achtste, *doelkaping door geleidelijke instructiedrift over meerdere interacties.* Elke demo van een agentsysteem die u ooit hebt gezien, overleeft één adversariale prompt. Geen enkele overleeft er honderd zorgvuldig gespreide.
Het cascade-inzicht dat de meeste berichtgeving miste
Verborgen in het onderzoek zit de bevinding die bepaalt of multi-agent-producten überhaupt veilig te leveren zijn. In elke pipeline waarbij agent A inhoud ophaalt, agent B die verwerkt en agent C een actie uitvoert, verspreidt één enkele injectie in de datafeed van agent A zich door elke downstream-agent. Agent B vertrouwt de uitvoer van A. Agent C vertrouwt de uitvoer van B. De aanvaller hoefde het model niet te compromitteren, alleen de data die het model consumeerde, één keer.
Zelf draai ik een persoonlijke multi-agent-omgeving met Hermes, een NousResearch-agent op Telegram die 14 cron jobs aanstuurt voor dagelijks nieuws, medische richtlijnsamenvattingen en persoonlijke logistiek. Elk van die 14 jobs leest uitsluitend uit bronnen die met de hand zijn geselecteerd en vertrouwd. Geen van hen volgt links. Geen van hen voert externe instructies uit. Na het verschijnen van het DeepMind-rapport heb ik elke cron geauditeerd: de regel hield stand. Dat was zo omdat ze twee jaar geleden is opgeschreven en nooit versoepeld. De meeste productie-agentstacks die ik in klantbriefings zie, hebben deze regel niet, en de ingenieurs die ze bouwen is nooit gevraagd haar op te schrijven.
Hoe 'het open web lezen' eruitziet in een klantbriefing
Dezelfde aanvraag verschijnt maandelijks in drie varianten:
- 'Laat de chatbot vragen beantwoorden door de website van mijn concurrent te doorzoeken.' In de praktijk verleent dit een aanvaller die een willekeurige bezochte webpagina beheert een schrijfbaar kanaal in de sessie van de klant.
- 'Laat gebruikers een URL plakken en de agent die laten samenvatten.' In de praktijk kunnen gebruikers zo een URL plakken waarvan de HTML verborgen instructies bevat die de volgende berichten in het gesprek exfiltreren.
- 'Voeg RAG toe over de documentatie van een externe leverancier die wij niet hosten.' In de praktijk verleent dit de tool-calling-rechten van de agent aan iedereen die vervolgens een documentatiepagina op de site van de leverancier bewerkt.
Elk van deze varianten verbindt een door aanvallers beheerd tekstkanaal rechtstreeks met een systeem dat aan dezelfde kant van de vertrouwensgrens gebruikersdata, tool-calls en uitgaand netwerkverkeer heeft. Geen van de klanten handelt kwaadwillig. Elk idee is op zichzelf een verdedigbaar product. Ze zijn ook alle drie, na 5 april 2026, niet leverbaar.
Elk beschikbaar verdedigingsmechanisme schiet tekort
DeepMind testte alle vier voor de hand liggende verdedigingsfamilies. Dit is hun beoordeling, met mijn toelichting bij elk:
| Verdediging | DeepMind-oordeel | Waarom het in de praktijk faalt |
|---|---|---|
| Invoersanitisatie | Onvoldoende | Afbeeldingspixels, documentmetadata of sprekersnotities in een PDF zijn niet te sanitiseren op het moment van inferentie. Het aanvalsoppervlak omvat tekst én elke andere modaliteit die de agent inneemt. |
| Prompt-niveau-bewakers | Onvoldoende | Geïnjecteerde inhoud is ontworpen om eruit te zien als een legitiem onderdeel van de pagina. Tegen de tijd dat het model het ziet, heeft de bewaker het al vertrouwd. |
| Sandboxing | Verkleint de impact, voorkomt injectie niet | Sandboxing helpt als het resultaat van de aanval begrensd is. Het helpt niet wanneer het doel van de aanval is om gebruikersdata te lezen en via een ogenschijnlijk legitieme API-aanroep terug te schrijven. |
| Menselijk toezicht | Onvoldoende op schaal | Een operator die een agent over 50 bronnen laat lopen, kan niet elke pagina controleren op verborgen instructies. Het hele idee achter de agent was nu juist dat de mens buiten de lus is gestapt. |
Als u de tabel serieus neemt, is er geen verantwoorde manier om een agent te leveren die door aanvallers beheerde tekst leest én acties uitvoert met gebruikersprivileges. De enige beschikbare stap is één van die twee eigenschappen te verwijderen.
Wat ik in plaats daarvan lever
webvise heeft AI-functionaliteiten in productie geleverd, waaronder een landingspagina voor een bouwbedrijf waarbij model-calls via de Vercel AI Gateway lopen voor providerrouting en observability. De vijf regels hieronder zijn wat die oplevering verdedigbaar maakten, en ze zijn nu harde randvoorwaarden voor elk AI-project:
- Uitsluitend agents met gesloten invoer. De agent leest uit een beperkte, handmatig samengestelde set bronnen onder directe controle. Geen open web, geen door gebruikers geplakte URL's, geen externe RAG over onbeheerde documentatie.
- Standaard alleen lezen. Als de agent iets moet lezen dat niet volledig vertrouwd is, mag hij in dezelfde sessie geen tools aanroepen, geen e-mail versturen, niets naar een database schrijven en geen uitgaande netwerkaanvragen doen. U krijgt het één of het ander, nooit beide tegelijk.
- Cross-agent-isolatie. Wanneer de uitvoer van agent A naar agent B stroomt, behandelt B die uitvoer als gebruikersinvoer, niet als systeeminstructies. Dit is één regel in de prompt en vormt de volledige verdediging tegen de cascade-aanval.
- Capability-budgetten per agent. Elke agent heeft een vaste lijst met tools en een token-limiet. Die limiet is klein genoeg dat zelfs een geslaagde injectie niet meer dan één kort bericht kan exfiltreren.
- Providersolatie via een gateway. Alle model-calls lopen via Vercel AI Gateway, zodat providers gewisseld kunnen worden, elke prompt en completion gelogd is, en een sleutel binnen seconden ingetrokken kan worden. Als er iets vreemds in de logs staat, is de schade te stoppen in dezelfde minuut dat het opvalt.
Dit zijn geen exotische maatregelen. Ze kosten een paar uur ontwerptijd, voordat er ook maar één regel code is geschreven. De reden dat de meeste agentproducten in 2026 ze niet hebben, is dat niemand in het team is aangewezen om de vertrouwensgrens te tekenen.
Waarom ik bepaalde opdrachten afwijs
Het is verleidelijk dit artikel te lezen als een bureau dat te voorzichtig is om uw geld aan te nemen. Het tegendeel is waar. Het DeepMind-rapport geeft elk team dat vóór de agent-boom technische geloofwaardigheid heeft opgebouwd een duidelijk voordeel: de mogelijkheid om specifieke functie-aanvragen af te wijzen met een heldere technische onderbouwing. Klanten waarderen dit achteraf doorgaans. Leveranciers die agents bouwen zonder deze randvoorwaarden nemen aanzienlijk exfiltratirisico op zich dat steeds vaker zichtbaar is in incident reports.
Dezelfde kans die er nu in content marketing bestaat, bestaat ook in agent-engineering. De markt ziet een snelle uitrol van chatbots zonder prompt-injectieverdediging, vergelijkbaar met de recente golf van laagwaardig door LLM gegenereerde inhoud. De premie gaat naar teams die vooraf kunnen aantonen dat hun product op een hoger niveau is gebouwd.
Waar ik de grens trek
De kortste versie van de regel, die nu in elk project-kickoff-document staat, luidt: een agent mag onvertrouwde inhoud lezen, of met gebruikersprivileges handelen, maar niet in dezelfde sessie. Al het andere volgt daaruit. Als een functie-aanvraag de grens overschrijdt, wordt hij niet gebouwd. Als hij kan worden omgevormd om aan één kant te blijven, gebeurt dat samen met de klant, en wordt de omgevormde versie geleverd. Het DeepMind-rapport heeft deze discipline niet uitgevonden, het heeft alleen elke reden om die niet te hebben weggenomen.
webvise bouwt AI-functionaliteiten voor bedrijven waarbij de kosten van één gelekt klantbericht hoger zijn dan de kosten van een afgewezen functie-aanvraag. Als dat uw project beschrijft, neem contact op: de eerste stap is samen de vertrouwensgrens tekenen, voordat er code wordt geschreven.
De werkwijzen van webvise zijn afgestemd op de ISO 27001- en ISO 42001-normen.