Von Regeln zu Ergebnissen: Was 22.000 GitHub-Sterne für eine einzige CLAUDE.md-Datei verraten

KI-gestütztes Coding scheitert, sobald der Verhaltensvertrag zwischen Mensch und LLM unklar bleibt. Teams, die solche Verträge fest im Toolchain verankern, profitieren von sich verstärkenden Rückflüssen. Teams, die diesen Schritt überspringen, häufen Bug-Reports über halluzinierte Ausgaben an.

Der Beweis liegt auf GitHub: forrestchang/andrej-karpathy-skills. Eine einzelne CLAUDE.md-Datei, die Andrej Karpathys Beobachtungen zu LLM-Coding-Fallstricken in handhabbare Regeln für Claude Code verdichtet. 22.700 Sterne. 1.800 Forks. Für eine Datei.

Diese Zahl bedeutet: 22.000 Entwicklerinnen und Entwickler teilen denselben Schmerz. KI-Coding-Assistenten sind leistungsfähig, aber unberechenbar. Ein präzise formulierter Verhaltensvertrag löst das Problem (Sternzahlen messen Sichtbarkeit, keine verifizierten Ergebnisse).

Die vier Prinzipien hinter 22.000 Sternen

Das Repo kodiert vier Prinzipien, jedes gegen ein konkretes Versagensmuster beim LLM-gestützten Coding gerichtet:

Think Before Coding. Annahmen offenlegen, Abwägungen darstellen, fragen statt raten. Zielt auf das Versagensmuster, bei dem LLMs mit der Implementierung beginnen, bevor sie das Problem verstanden haben.
Simplicity First. Minimal funktionsfähiger Code, keine spekulativen Features oder Abstraktionsschichten. Zielt auf das Versagensmuster, bei dem LLMs Lösungen unnötig überingenieurisieren.
Goal-Driven Execution. Erfolgskriterien vorgeben, keine Schritt-für-Schritt-Anweisungen. Das LLM iteriert, bis die Kriterien erfüllt sind. Zielt auf das Versagensmuster, bei dem imperative Anweisungen spröden, buchstabentreuen Code erzeugen.
Explicit Communication. Keine stillschweigenden Annahmen. Jede Entscheidung dokumentiert. Zielt auf das Versagensmuster, bei dem LLMs Entscheidungen treffen, die plausibel wirken, aber unausgesprochene Anforderungen verletzen.

Jedes dieser Prinzipien ist für sich genommen unspektakulär. Überraschend ist, dass ihre Kodierung in einer einzigen Datei den Unterschied macht zwischen "KI hat mir den Nachmittag gestohlen" und "KI hat das Feature geliefert, während ich reviewed habe."

CLAUDE.md ist kein Styleguide

Die meisten Teams behandeln ihre CLAUDE.md (oder eine vergleichbare System-Prompt-Datei) wie einen Code-Styleguide: Formatierungsvorlieben, Namenskonventionen, ein paar projektspezifische Hinweise. Damit verfehlen sie den Kern.

Eine CLAUDE.md ist ein Verhaltensvertrag. Er legt fest, wie der KI-Agent Probleme durchdenkt, wann er nachfragt statt Annahmen zu treffen, wie er den Arbeitsumfang abgrenzt und was er vor Abschluss einer Aufgabe überprüft. Styleguides sagen der KI, wie Code aussehen soll. Verhaltensverträge sagen ihr, wie sie denken soll.

Karpathys eigener KI-gestützter Coding-Workflow bestätigt das. Seine Schleife (Kontext befüllen, Änderung beschreiben, Ansatz wählen, reviewen, testen, committen, wiederholen) behandelt die KI als das, was er einen "übereifrigen Junior-Intern-Savanten" nennt: enzyklopädisches Wissen, null Urteilsvermögen. Der Verhaltensvertrag liefert das Urteilsvermögen, das dem Modell fehlt.

Diese Neuformulierung hat eine konkrete Konsequenz. Bei schlechter KI-Ausgabe verschiebt sich die Frage von "Ist das Modell gut genug?" zu "Ist der Vertrag präzise genug?" Die erste Frage führt zum Warten auf GPT-5. Die zweite führt zu einem Pull Request, der heute geshippt werden kann.

Verhaltensverträge in Multi-Agent-Systemen skalieren

Karpathys Prinzipien entstanden für einen einzelnen Entwickler mit einem KI-Assistenten. Dasselbe Muster skaliert aber auf Multi-Agent-Orchestrierung, bei der spezialisierte Agenten komplexe Aufgaben koordiniert abarbeiten.

Zum Einsatz kommt oh-my-claudecode (OMC), eine Open-Source-Orchestrierungsschicht für Claude Code, die 19 spezialisierte Sub-Agenten koordiniert: Architekt, Executor, Reviewer, Security Auditor, Test Engineer und weitere. Jeder Agent verfügt über einen eigenen Verhaltensvertrag, der seine Denkmuster, Zuständigkeitsgrenzen und Verifikationsanforderungen definiert.

Dimension	Single-Agent-Vertrag	Multi-Agent-Vertrag
Umfang	Eine Entwicklerin oder ein Entwickler, ein Assistent	19 spezialisierte Agenten mit klar getrennten Rollen
Verifikation	Mensch prüft KI-Ausgabe	Reviewer-Agent prüft den Executor; Mensch prüft das Endergebnis
Kontext	Vollständige Codebasis in einem Fenster	Jeder Agent erhält nur den für seine Aufgabe relevanten Kontext
Versagensmuster	KI verkompliziert eine einzelne Datei	Agenten duplizieren Arbeit oder widersprechen einander
Vertragsfokus	Wie über diesen Code nachzudenken ist	Wer welche Entscheidungen trifft und wie Übergaben funktionieren

Der Proof of Concept: eine vollständige Produktintegration, generiert aus einer Produktspezifikation durch OMCs Agenten-Pipeline. Die entscheidende Erkenntnis war Qualitätskontrolle, nicht die Zeilenzahl. Die Verhaltensverträge in den System-Prompts jedes Agenten waren der primäre menschlich verfasste Input jenseits der Spezifikation selbst.

Claude war bereits intelligent genug. Die Verträge waren präzise genug, damit rund 19 Agenten koordinieren konnten, ohne sich gegenseitig die Arbeit zu überschreiben.

Wo der echte Wettbewerbsvorteil liegt

KI-Infrastruktur wird zur Commodity (mit verwalteten Agent-Runtimes ab 0,08 Dollar pro Sessionstunde). Die entscheidende Frage lautet daher: Wo entsteht dauerhafter Wettbewerbsvorteil?

Hilfreich ist ein Fünf-Schichten-Modell:

Schicht	Funktion	Verteidigbarkeit
Infrastruktur	Modell-Hosting, Sandboxing, Persistenz	Niedrig. Commodity. Viele Anbieter.
Orchestrierung	Multi-Agent-Koordination, Verhaltensverträge	Mittel. Erfordert akkumuliertes Know-how.
Design-Regeln	Agent-first-Produktentwicklung	Mittel bis hoch. Erfordert Domänenerfahrung.
Produktthese	Was gebaut wird und für wen	Hoch. Erfordert Marktverständnis.
Geschäftsmodell	Wie die Arbeit Umsatz generiert	Am höchsten. Erfordert Kundenbeziehungen.

Verhaltensverträge gehören zur Orchestrierungsschicht. Genau dort scheitern die meisten Teams derzeit. Wer Orchestrierung beherrscht, trennt "wir haben mal mit KI-Coding experimentiert" von "KI-Coding ist unser Lieferweg".

PostHogs Agent-first-Produktentwicklungsregeln bestätigen das von der Produktseite. Ihre fünfte Regel ("Agenten wie echte Nutzer behandeln") transportiert im Kern dieselbe Einsicht: KI braucht explizite, getestete, verifizierte Rahmenbedingungen, keine Bauchgefühle.

Drei Muster, die sich lohnen

Wer eine Sache aus dem karpathy-skills-Repo mitnehmen möchte, sollte diese drei Muster für das eigene Team übernehmen:

Erfolgskriterien formulieren, keine Anweisungen. Karpathys Goal-Driven-Execution-Prinzip funktioniert, weil LLMs besser auf ein messbares Ziel hin iterieren als prozedurale Schritte abzuarbeiten. Festlegen, wie "fertig" aussieht. Den Agenten herausfinden lassen, wie er dorthin gelangt.
Authoring und Review trennen. In Multi-Agent-Systemen darf der Agent, der Code schreibt, nicht derselbe sein, der ihn freigibt. In Single-Agent-Workflows gilt dasselbe für die eigene Arbeit: KI-Ausgaben mit derselben Sorgfalt reviewen, die man auf den Pull Request eines Junior-Entwicklers anwenden würde.
Verträge wie Code versionieren. CLAUDE.md, System-Prompts und Agent-Definitionen sind Produktions-Artefakte. Sie gehören in die Versionskontrolle, verdienen Code-Review und sollten sich auf Basis beobachteter Fehler weiterentwickeln. Das karpathy-skills-Repo selbst ist der Beweis: ein versionierter, community-geprüfter Verhaltensvertrag.

Die 22.000 Sterne zeigen: Der Abstand zwischen KI-Tooling, das Rauschen produziert, und KI-Tooling, das lieferfähige Features ausgibt, hängt häufig an einer sauber geschriebenen Vertrags-Datei. webvise baut täglich auf dieser Grundlage. Wer erkunden möchte, was Verhaltensverträge und Multi-Agent-Orchestrierung für den eigenen Entwicklungsprozess leisten können, ist eingeladen, Kontakt aufzunehmen.

Die Praktiken von webvise sind an den ISO 27001- und ISO 42001-Standards ausgerichtet.