AI-ondersteund coderen loopt stuk zodra het gedragscontract tussen mens en LLM vaag is. Teams die deze contracten in hun toolchain vastleggen, bouwen cumulatief voordeel op. Teams die dit overslaan, blijven bugrapporten indienen over gehallucineerde output.
Het bewijs: forrestchang/andrej-karpathy-skills op GitHub. Één CLAUDE.md-bestand dat Andrej Karpathy's observaties over LLM-coderingsvalkuilen destilleert tot bruikbare regels voor Claude Code. 22.700 sterren. 1.800 forks. Voor één bestand.
Dat sterrenaantal laat zien dat 22.000 ontwikkelaars dezelfde pijn delen: AI-codeerassistenten zijn krachtig maar onvoorspelbaar, en een goed geschreven gedragscontract verhelpt dat (sterrenaantallen meten zichtbaarheid, geen geverifieerde uitkomsten).
De vier principes achter 22.000 sterren
De repo legt vier principes vast, elk gericht op een specifiek faalpatroon bij LLM-ondersteund coderen:
- Denk voor het coderen. Aannames aan de oppervlakte brengen, afwegingen presenteren, vragen stellen in plaats van raden. Gericht op het faalpatroon waarbij LLM's aan de implementatie beginnen voordat ze het probleem begrijpen.
- Eenvoud eerst. Minimaal werkende code, geen speculatieve functies of abstracties. Gericht op het faalpatroon waarbij LLM's oplossingen overontwikkelen met onnodige complexiteit.
- Doelgerichte uitvoering. Succescriteria specificeren, geen stapsgewijze instructies. Laat de LLM itereren totdat aan de criteria is voldaan. Gericht op het faalpatroon waarbij imperatieve instructies kwetsbare, letterlijk-denkende code opleveren.
- Expliciete communicatie. Geen stilzwijgende aannames. Elke beslissing gedocumenteerd. Gericht op het faalpatroon waarbij LLM's keuzes maken die redelijk lijken maar onuitgesproken beperkingen schenden.
Geen van deze principes is op zichzelf verrassend. Wat verrassend is: ze vastleggen in één bestand maakt het verschil tussen "de AI heeft mijn middag verspild" en "de AI heeft de feature opgeleverd terwijl ik reviewde."
CLAUDE.md is geen stijlgids
De meeste teams behandelen hun CLAUDE.md (of een vergelijkbaar systeempromptbestand) als een stijlgids voor code: opmaakvoorkeuren, naamgevingsconventies, misschien een paar projectspecifieke notities. Daarmee mist men het punt volledig.
Een CLAUDE.md is een gedragscontract. Het legt vast hoe de AI-agent over problemen redeneert, wanneer hij om verduidelijking vraagt tegenover aannames maken, hoe hij werk afbakent, en wat hij verifieert voordat hij klaar rapporteert. Stijlgidsen vertellen de AI hoe code eruit moet zien. Gedragscontracten vertellen de AI hoe te denken.
Karpathy's eigen AI-ondersteunde codeerwerkstroom bevestigt dit. Zijn cyclus (context verzamelen, de wijziging beschrijven, een aanpak kiezen, reviewen, testen, committen, herhalen) behandelt de AI als wat hij een "overijverige junior stagiair-savant" noemt: encyclopedische kennis, nul oordeel. Het gedragscontract levert het oordeelsvermogen dat het model mist.
Dit andere perspectief heeft een concrete consequentie. Wanneer uw AI-agent slechte output levert, verschuift de vraag van "is het model goed genoeg?" naar "is het contract specifiek genoeg?" De ene vraag leidt tot wachten op GPT-5. De andere leidt tot een pull request dat u vandaag kunt opleveren.
Gedragscontracten schalen naar multi-agent-systemen
Karpathy's principes waren ontworpen voor een solo-ontwikkelaar die met één AI-assistent werkt. Hetzelfde patroon schaalt echter naar multi-agent-orkestratie, waarbij gespecialiseerde agents samenwerken aan complexe taken.
Voor coördinatie gebruik ik oh-my-claudecode (OMC), een open-source multi-agent-orkestratielaag voor Claude Code, met 19 gespecialiseerde sub-agents: architect, executor, reviewer, security auditor, test engineer en meer. Elke agent heeft zijn eigen gedragscontract dat zijn redeneerpatronen, scopegrenzen en verificatievereisten vastlegt.
| Dimensie | Single-agent-contract | Multi-agent-contract |
|---|---|---|
| Scope | Één ontwikkelaar, één assistent | 19 gespecialiseerde agents met afzonderlijke rollen |
| Verificatie | Mens beoordeelt AI-output | Reviewer-agent controleert executor; mens beoordeelt eindresultaat |
| Context | Volledige codebase in één venster | Elke agent ontvangt alleen relevante context voor zijn taak |
| Faalpatroon | AI overcompliceertt één bestand | Agents dupliceren werk of spreken elkaar tegen |
| Contractfocus | Hoe over deze code na te denken | Wie welke beslissingen neemt en hoe overdrachten werken |
Het proof of concept: een volledige productintegratie gegenereerd vanuit een productspecificatie via de agentpipeline van OMC. De belangrijkste les betrof kwaliteitscontrole, geen regelaantal. De gedragscontracten gedefinieerd in de systeemprompt van elke agent waren de voornaamste door mensen geschreven input buiten de specificatie zelf.
Claude was al slim genoeg. De contracten waren precies genoeg zodat circa 19 agents konden coördineren zonder elkaars werk te overschrijven.
Waar het concurrentievoordeel werkelijk ligt
Als AI-infrastructuur aan het commoditiseren is (en dat is het, met beheerde agent-runtimes die nu beschikbaar zijn voor $0,08 per sessie-uur), wordt de vraag: waar ligt duurzaam concurrentievoordeel?
Zie het als een vijflaags model:
| Laag | Functie | Verdedigbaarheid |
|---|---|---|
| Infrastructuur | Modelhosting, sandboxing, persistentie | Laag. Gecommoditiseerd. Meerdere aanbieders. |
| Orkestratie | Multi-agent-coördinatie, gedragscontracten | Gemiddeld. Vereist opgebouwde kennis. |
| Ontwerpregels | Agent-first productontwikkeling | Gemiddeld-hoog. Vereist domeinervaring. |
| Productthese | Wat te bouwen en voor wie | Hoog. Vereist marktinzicht. |
| Businessmodel | Hoe het werk omzet genereert | Hoogst. Vereist klantrelaties. |
Gedragscontracten bevinden zich in de orkestratielaag. Dat is de laag waar de meeste teams momenteel tekortschieten. Orkestratie goed inrichten scheidt "we hebben geëxperimenteerd met AI-coderen" van "AI-coderen is hoe er geleverd wordt."
PostHog's agent-first productontwikkelingsregels bevestigen dit vanuit de productkant. Hun vijfde regel ("behandel agents als echte gebruikers") is in wezen hetzelfde inzicht: de AI heeft expliciete, geteste, geverifieerde beperkingen nodig, geen vrijblijvendheid.
Drie patronen die de moeite waard zijn om over te nemen
Als u één ding meeneemt uit de karpathy-skills-repo, laat het dan deze drie patronen zijn voor uw eigen team:
- Schrijf succescriteria, geen instructies. Karpathy's principe van doelgerichte uitvoering werkt omdat LLM's beter zijn in itereren naar een meetbaar doel dan in het volgen van procedurele stappen. Definieer hoe "klaar" eruitziet. Laat de agent bepalen hoe hij er komt.
- Scheid het schrijven van het reviewen. In multi-agent-systemen mag de agent die code schrijft nooit de agent zijn die het goedkeurt. In single-agent-workflows geldt hetzelfde voor u: beoordeel AI-output met dezelfde nauwgezetheid die u zou toepassen op de pull request van een junior ontwikkelaar.
- Beheer uw contracten zoals code. Uw CLAUDE.md, systeemprompts en agentdefinities zijn productieartefacten. Ze horen in versiebeheer, verdienen code review en moeten evolueren op basis van waargenomen fouten. De karpathy-skills-repo zelf is het bewijs: een in versie beheerd, door de community beoordeeld gedragscontract.
De 22.000 sterren wijzen op het idee dat het verschil tussen AI-tooling die ruis produceert en AI-tooling die leverbare features oplevert, vaak neerkomt op een goed geschreven contractsbestand. webvise bouwt elke dag op dat idee voort. Wilt u verkennen wat gedragscontracten en multi-agent-orkestratie voor uw ontwikkelwerkstroom kunnen betekenen, neem dan contact op.
De werkwijzen van webvise zijn afgestemd op de ISO 27001- en ISO 42001-normen.