13 april 2026 · 7 min. leestijd

Van regels naar resultaten: wat 22.000 sterren voor één CLAUDE.md onthullen over AI-ondersteunde ontwikkeling

De karpathy-skills-repo bewijst dat knelpunten bij AI-ondersteund coderen niets te maken hebben met de capaciteit van het model. Ze gaan over het gedragscontract tussen mens en LLM.

AI AgentsAIOpen SourceBusiness Strategy

AI-ondersteund coderen loopt stuk zodra het gedragscontract tussen mens en LLM vaag is. Teams die deze contracten in hun toolchain vastleggen, bouwen cumulatief voordeel op. Teams die dit overslaan, blijven bugrapporten indienen over gehallucineerde output.

Het bewijs: forrestchang/andrej-karpathy-skills op GitHub. Één CLAUDE.md-bestand dat Andrej Karpathy's observaties over LLM-coderingsvalkuilen destilleert tot bruikbare regels voor Claude Code. 22.700 sterren. 1.800 forks. Voor één bestand.

Dat sterrenaantal laat zien dat 22.000 ontwikkelaars dezelfde pijn delen: AI-codeerassistenten zijn krachtig maar onvoorspelbaar, en een goed geschreven gedragscontract verhelpt dat (sterrenaantallen meten zichtbaarheid, geen geverifieerde uitkomsten).

De vier principes achter 22.000 sterren

De repo legt vier principes vast, elk gericht op een specifiek faalpatroon bij LLM-ondersteund coderen:

Denk voor het coderen. Aannames aan de oppervlakte brengen, afwegingen presenteren, vragen stellen in plaats van raden. Gericht op het faalpatroon waarbij LLM's aan de implementatie beginnen voordat ze het probleem begrijpen.
Eenvoud eerst. Minimaal werkende code, geen speculatieve functies of abstracties. Gericht op het faalpatroon waarbij LLM's oplossingen overontwikkelen met onnodige complexiteit.
Doelgerichte uitvoering. Succescriteria specificeren, geen stapsgewijze instructies. Laat de LLM itereren totdat aan de criteria is voldaan. Gericht op het faalpatroon waarbij imperatieve instructies kwetsbare, letterlijk-denkende code opleveren.
Expliciete communicatie. Geen stilzwijgende aannames. Elke beslissing gedocumenteerd. Gericht op het faalpatroon waarbij LLM's keuzes maken die redelijk lijken maar onuitgesproken beperkingen schenden.

Geen van deze principes is op zichzelf verrassend. Wat verrassend is: ze vastleggen in één bestand maakt het verschil tussen "de AI heeft mijn middag verspild" en "de AI heeft de feature opgeleverd terwijl ik reviewde."

CLAUDE.md is geen stijlgids

De meeste teams behandelen hun CLAUDE.md (of een vergelijkbaar systeempromptbestand) als een stijlgids voor code: opmaakvoorkeuren, naamgevingsconventies, misschien een paar projectspecifieke notities. Daarmee mist men het punt volledig.

Een CLAUDE.md is een gedragscontract. Het legt vast hoe de AI-agent over problemen redeneert, wanneer hij om verduidelijking vraagt tegenover aannames maken, hoe hij werk afbakent, en wat hij verifieert voordat hij klaar rapporteert. Stijlgidsen vertellen de AI hoe code eruit moet zien. Gedragscontracten vertellen de AI hoe te denken.

Karpathy's eigen AI-ondersteunde codeerwerkstroom bevestigt dit. Zijn cyclus (context verzamelen, de wijziging beschrijven, een aanpak kiezen, reviewen, testen, committen, herhalen) behandelt de AI als wat hij een "overijverige junior stagiair-savant" noemt: encyclopedische kennis, nul oordeel. Het gedragscontract levert het oordeelsvermogen dat het model mist.

Dit andere perspectief heeft een concrete consequentie. Wanneer uw AI-agent slechte output levert, verschuift de vraag van "is het model goed genoeg?" naar "is het contract specifiek genoeg?" De ene vraag leidt tot wachten op GPT-5. De andere leidt tot een pull request dat u vandaag kunt opleveren.

Gedragscontracten schalen naar multi-agent-systemen

Karpathy's principes waren ontworpen voor een solo-ontwikkelaar die met één AI-assistent werkt. Hetzelfde patroon schaalt echter naar multi-agent-orkestratie, waarbij gespecialiseerde agents samenwerken aan complexe taken.

Voor coördinatie gebruik ik oh-my-claudecode (OMC), een open-source multi-agent-orkestratielaag voor Claude Code, met 19 gespecialiseerde sub-agents: architect, executor, reviewer, security auditor, test engineer en meer. Elke agent heeft zijn eigen gedragscontract dat zijn redeneerpatronen, scopegrenzen en verificatievereisten vastlegt.

Dimensie	Single-agent-contract	Multi-agent-contract
Scope	Één ontwikkelaar, één assistent	19 gespecialiseerde agents met afzonderlijke rollen
Verificatie	Mens beoordeelt AI-output	Reviewer-agent controleert executor; mens beoordeelt eindresultaat
Context	Volledige codebase in één venster	Elke agent ontvangt alleen relevante context voor zijn taak
Faalpatroon	AI overcompliceertt één bestand	Agents dupliceren werk of spreken elkaar tegen
Contractfocus	Hoe over deze code na te denken	Wie welke beslissingen neemt en hoe overdrachten werken

Het proof of concept: een volledige productintegratie gegenereerd vanuit een productspecificatie via de agentpipeline van OMC. De belangrijkste les betrof kwaliteitscontrole, geen regelaantal. De gedragscontracten gedefinieerd in de systeemprompt van elke agent waren de voornaamste door mensen geschreven input buiten de specificatie zelf.

Claude was al slim genoeg. De contracten waren precies genoeg zodat circa 19 agents konden coördineren zonder elkaars werk te overschrijven.

Waar het concurrentievoordeel werkelijk ligt

Als AI-infrastructuur aan het commoditiseren is (en dat is het, met beheerde agent-runtimes die nu beschikbaar zijn voor $0,08 per sessie-uur), wordt de vraag: waar ligt duurzaam concurrentievoordeel?

Zie het als een vijflaags model:

Laag	Functie	Verdedigbaarheid
Infrastructuur	Modelhosting, sandboxing, persistentie	Laag. Gecommoditiseerd. Meerdere aanbieders.
Orkestratie	Multi-agent-coördinatie, gedragscontracten	Gemiddeld. Vereist opgebouwde kennis.
Ontwerpregels	Agent-first productontwikkeling	Gemiddeld-hoog. Vereist domeinervaring.
Productthese	Wat te bouwen en voor wie	Hoog. Vereist marktinzicht.
Businessmodel	Hoe het werk omzet genereert	Hoogst. Vereist klantrelaties.

Gedragscontracten bevinden zich in de orkestratielaag. Dat is de laag waar de meeste teams momenteel tekortschieten. Orkestratie goed inrichten scheidt "we hebben geëxperimenteerd met AI-coderen" van "AI-coderen is hoe er geleverd wordt."

PostHog's agent-first productontwikkelingsregels bevestigen dit vanuit de productkant. Hun vijfde regel ("behandel agents als echte gebruikers") is in wezen hetzelfde inzicht: de AI heeft expliciete, geteste, geverifieerde beperkingen nodig, geen vrijblijvendheid.

Drie patronen die de moeite waard zijn om over te nemen

Als u één ding meeneemt uit de karpathy-skills-repo, laat het dan deze drie patronen zijn voor uw eigen team:

Schrijf succescriteria, geen instructies. Karpathy's principe van doelgerichte uitvoering werkt omdat LLM's beter zijn in itereren naar een meetbaar doel dan in het volgen van procedurele stappen. Definieer hoe "klaar" eruitziet. Laat de agent bepalen hoe hij er komt.
Scheid het schrijven van het reviewen. In multi-agent-systemen mag de agent die code schrijft nooit de agent zijn die het goedkeurt. In single-agent-workflows geldt hetzelfde voor u: beoordeel AI-output met dezelfde nauwgezetheid die u zou toepassen op de pull request van een junior ontwikkelaar.
Beheer uw contracten zoals code. Uw CLAUDE.md, systeemprompts en agentdefinities zijn productieartefacten. Ze horen in versiebeheer, verdienen code review en moeten evolueren op basis van waargenomen fouten. De karpathy-skills-repo zelf is het bewijs: een in versie beheerd, door de community beoordeeld gedragscontract.

De 22.000 sterren wijzen op het idee dat het verschil tussen AI-tooling die ruis produceert en AI-tooling die leverbare features oplevert, vaak neerkomt op een goed geschreven contractsbestand. webvise bouwt elke dag op dat idee voort. Wilt u verkennen wat gedragscontracten en multi-agent-orkestratie voor uw ontwikkelwerkstroom kunnen betekenen, neem dan contact op.

De werkwijzen van webvise zijn afgestemd op de ISO 27001- en ISO 42001-normen.

Vorig artikel

Waarom AI-gegenereerde software nog steeds engineering-review nodig heeft

Andrej Karpathy muntte de term "vibe coding" in februari 2025. Sindsdien is er een golf van AI-gegenereerde apps verschenen die werken in demo's en falen in productie. Het probleem is het gebruik van AI-tools zonder engineering-discipline.

Volgend artikel

Elke SaaS wordt een agent-harness

Een salesteam verving een complete sales-SaaS met één Claude-skill en drie MCP-servers. Dit patroon bepaalt welke softwarecategorieën 2026 overleven.