Hermes Agent in Produktion: das Tag-30-Problem

Die Hermes Agent Operator-Schicht umfasst die Disziplinen, die ein Multi-Profil-Team über Tag 30 hinaus kohärent halten. Vier Grundbausteine: Übergabeverträge mit echter Blockierfunktion, Memory-KPI-Audits je Profil, Richtlinien-Gates je Rolle und koordinierter Cron-Zustand. Fehlen diese, zeigt ein 4-Profil-Team (Hermes, Alan, Mira, Turing) innerhalb eines Monats Anzeichen von Stimm-Konvergenz.

Die meisten Hermes-Operator-Anleitungen enden beim 4-Profil-Bootstrap; Material zum Tag-30-Betrieb ist in der öffentlichen Dokumentation kaum vorhanden. Ab Tag 30 beginnen Profile gleich zu klingen, Übergaben brechen lautlos ab, und ein sorgfältig aufgebautes System wird von einem Solo-Agenten-Setup nicht mehr zu unterscheiden sein.

Wer Hermes Agent Version 0.9.0 mit dem Standard-Bootstrap inklusive Alan, Mira und Turing betreibt, hat den Grundaufbau abgeschlossen; die Tag-30-Arbeit beginnt von dort. Jeder der folgenden Grundbausteine entstammt realen Deployment-Mustern und ist dem spezifischen Fehlerfall zugeordnet, der seine Einführung erzwingt.

Übergabeverträge sind nur real, wenn sie blockieren. Entspricht die Eingabe des empfangenden Profils nicht der erwarteten Form, muss die Übergabe fehlschlagen, nicht nur warnen.
Memory veraltet je Profil. Wöchentliche `memory-kpi`-Audits sind Pflicht. Überschreitet der Anteil veralteter Notizen 15%, wird ein `brain-resolve`-Durchlauf angesetzt.
Richtlinien-Gates verhindern stillen Berechtigungsdrift. Alan erhält niemals Shell-Zugriff. Nur der Orchestrator darf Commits zu main genehmigen.
Vier Tag-30-Fehlermodi erklären den Großteil der beobachteten Deployment-Regressionen. Profil-Drift, Übergabe-Rot, SOUL.md-Aufblähung, Cron-Kollision. Jeder hat ein spezifisches Gegenmittel.
Lesen Sie zuerst die [Hermes Agent Definitionsanleitung](/blog/hermes-agent-self-improving-ai), wenn Sie den Was-ist-es-Kontext vor der Operator-Schicht benötigen.

Das 4-Profil-Basisteam (Überblick)

Bevor die Operator-Schicht relevant wird, muss das 4-Profil-Basisteam laufen. Die folgende kanonische Aufteilung ist das Muster, auf das die meisten produktiven Hermes-Deployments konvergieren.

Hermes (Orchestrator). Plant, zerlegt, routet, synthetisiert. Verkehrsleitung, kein Flaschenhals.
Alan (Forschungsspezialist). Quellenorientiert, skeptisch, unsicherheitsbewusst. Schützt das Team vor halluzinierter Zuversicht.
Mira (Narrations-Architektin). Klarheit, Struktur, Publikumsbewusstsein. Verwandelt validiertes Material in Kommunikation.
Turing (Entwickler und Debugger). Implementierung, Logs, Diffs, Reproduzierbarkeit. Fokus auf Tests, nicht auf narrative Politur.

Profile isolieren sieben Zustandsdimensionen gleichzeitig: Konfiguration, Sessions, Memory, Skills, Persönlichkeit, Cron-Zustand und Gateway-Zustand. Diese Isolation ist der Grundbaustein, auf dem die Operator-Schicht aufbaut. Wer noch ein einzelnes Profil mit fünf Rollen betreibt, dem helfen die folgenden Muster nicht. Den Grundbaustein gilt es zuerst zu beheben.

Wer prüfen möchte, ob ein 4-Profil-Hermes-Deployment zur tatsächlichen Arbeitslast des Teams passt, kann das mit webvise gemeinsam durchgehen.

Übergabeverträge: Das einzige Mittel gegen Profil-Drift

Ein Übergabevertrag ist eine Vier-Felder-Spezifikation, gespeichert unter `~/.hermes/team/handoffs/<from>-to-<to>.md`. Der Vertrag ist nur real, wenn er blockieren kann. Entspricht die Eingabe nicht der deklarierten Form, lässt der Harness die Übergabe fehlschlagen und fordert menschliche Überprüfung an. Die vier Pflichtfelder:

Feld	Definition	Beispiel (Alan nach Mira)
Eingabeform	Was das empfangende Profil erwartet	Priorisierte Aussagen mit Quell-URLs, keine rohen Auszüge
Ausgabeform	Was das empfangende Profil zurückliefert	Entworfener Abschnitt plus Änderungsprotokoll, kein fertiger Artikel
Fehlerverhalten	Was bei fehlerhafter Eingabe geschieht	blockieren, menschliche Überprüfung anfordern oder wiederholen
Verifikations-Gate	Eine Bedingung, die vor dem Abschluss der Übergabe wahr sein muss	Jede Aussage hat eine Quell-URL

Das Gate ist tragendes Element. Die meisten Teams schreiben Übergabedokumentation als Empfehlung und fragen sich dann, warum die Profile driften. Eine Empfehlung blockiert nie. Ohne Blockierung sendet Alan irgendwann rohe Transkripte an Mira, Mira beginnt ohne Quellenangabe zu entwerfen, und die Ausgabequalität des Teams erodiert Übergabe für Übergabe, ohne dass es auffällt.

Memory-KPI: Die 15%-Schwelle veralteter Notizen

Memory veraltet in jedem Profil genauso wie ein geteiltes Wiki ab 100 Seiten. Ein wöchentliches Audit erkennt den Verfall, bevor das Profil beginnt, sich aus veraltetem Kontext selbst zu zitieren. Drei Metriken je Profil sind relevant:

`source_backed_pct`: Anteil der Notizen mit noch abrufbarer Quelle. Sinkt, wenn Quellen einen 404 zurückgeben oder gelöscht wurden.
`stale_notes`: Anzahl der Notizen, deren referenzierter Code, URL oder Config nicht mehr der Realität entspricht.
`contradiction_notes`: Anzahl der Notizen, die etwas anderem im Memory desselben Profils widersprechen.

Der wöchentliche Audit-Befehl läuft über alle Spezialistenprofile: `for p in alan mira turing; do hermes -p $p memory-kpi --json | jq '.source_backed_pct, .stale_notes, .contradiction_notes'; done`. Entscheidend ist `stale_notes`. Überschreitet der Wert 15% der Gesamtnotizen eines Profils, wird ein `brain-resolve`-Durchlauf angesetzt, bevor das Profil beginnt, sich aus veraltetem Kontext zu zitieren.

Richtlinien-Gates: Berechtigungen je Rolle

Kein Profil erhält mehr Berechtigung, als seine Rolle erfordert. Nur der Orchestrator darf den Scope eines anderen Profils erweitern. Diese Regeln wöchentlich in einer Tabelle zu prüfen ist der Unterschied zwischen einem kontrollierten Team und vier Agenten, die allmählich alle zu Administratoren werden.

Profil	Risikoklasse	Berechtigungen
Alan (Forschung)	sicher	Web und Repo lesen, nur in research/ schreiben. Kein Shell-Zugriff, keine Schreibvorgänge außerhalb der Sandbox.
Mira (Autorin)	sicher	Forschungsausgaben lesen, nur in drafts/ schreiben. Kein Zugriff auf Secrets, keine Code-Ausführung.
Turing (Ingenieur)	Überprüfung	Repo lesen, sandboxed Tests ausführen, in Feature-Branch schreiben. Jeder Commit zu main erfordert Orchestrator-Genehmigung.
Hermes (Orchestrator)	kritisch	Einziges Profil, das Turings Commits genehmigen, Branches mergen oder kostenpflichtige API-Aufrufe oberhalb des Budget-Deckels auslösen darf.

Das Prinzip ist tragendes Element. Ein Forschungsagent mit Shell-Zugriff wird irgendwann einen Befehl ausführen, den er nicht ausführen sollte. Ein Schreiberprofil mit Zugriff auf Secrets wird diese irgendwann in einen Entwurf einbetten. Berechtigungs-Drift passiert lautlos und ist erst im Nachhinein offensichtlich: ein ungünstiger Zeitpunkt, um die Lücke zu entdecken.

Die vier Tag-30-Fehlermodi

Vier spezifische Fehlermodi erklären den Großteil der Deployment-Regressionen in Multi-Agenten-Hermes-Setups. Jeder hat ein direktes Gegenmittel. Wird eines davon übersprungen, sieht das Team an Tag 1 gut aus und ist an Tag 30 degradiert.

1. Profil-Drift

SOUL.md-Änderungen akkumulieren sich lautlos. Mira wird langsam zu Turing. Gegenmittel: Jede SOUL.md wöchentlich gegen die Version von Tag 1 abgleichen. Jede neue Verantwortlichkeit erhält einen protokollierten Genehmigungseintrag, andernfalls wird sie rückgängig gemacht. Keine Ausnahmen für kleine Änderungen, denn durch kleine Änderungen entsteht Drift.

2. Übergabe-Rot

Die Vertragsdatei existiert, wird aber von niemandem durchgesetzt. Alan beginnt wieder, rohe Transkripte an Mira zu senden. Gegenmittel: Jede Übergabedatei in den Harness einbinden, sodass fehlerhafte Eingaben blockieren. Ein Vertrag ohne Blockierfunktion ist Dokumentation, keine Kontrolle.

3. SOUL.md-Aufblähung

Jede Rolle wächst um Edge-Case-Absätze, bis der Agent seine ursprüngliche Identität im Rauschen verliert. Gegenmittel: SOUL.md auf 400 Wörter begrenzen. Alles darüber hinaus gehört in AGENTS.md oder eine domänenspezifische Referenzdatei. Diese Einschränkung zwingt dazu, die Identität präzise zu halten.

4. Cron-Kollision

Mehrere Profile planen Jobs auf 3 Uhr ohne Koordination. Der Orchestrator wacht auf, während vier Agenten um dasselbe API-Kontingent kämpfen. Gegenmittel: eine gemeinsame `~/.hermes/team/cron.md`, die jeden geplanten Task über alle Profile hinweg mit genauer Uhrzeit, Dauer und Abhängigkeit auflistet. Vor jedem neuen Cron-Eintrag ist diese Datei zu prüfen.

Eignung für Business-Teams

Die Operator-Schicht ist das Element, das aus einer Hermes-Demo dauerhaft produktionsfähige Infrastruktur macht. Teams, die Multi-Agenten-Frameworks evaluieren, konzentrieren sich meist auf die initialen Setup-Kosten und übersehen das Wartungsmodell. Ein 4-Profil-Team ohne Übergabeverträge, Memory-Audits und Richtlinien-Gates hat dieselbe Fehlerkurve wie ein Single-Profil-Agent mit sechs Wochen Verzögerung: funktioniert am Anfang tadellos, degradiert unsichtbar, bricht zusammen, wenn man es am meisten braucht.

Der kumulative Mehrwert von Hermes, der Grund, warum die Skill-Bibliothek entscheidend ist, hängt daran, dass die Operator-Schicht hält. Skills, die ein Profil akkumuliert hat, das lautlos in eine andere Rolle gedriftet ist, sind Skills für eine Rolle, die es nicht mehr gibt.

webvise unterstützt Unternehmen beim Design und Betrieb von KI-Agenten-Architekturen, einschließlich Hermes-Multi-Profil-Teams mit der Governance-Disziplin, die über Tag 30 trägt. Wer ein Hermes-Deployment evaluiert oder bereits eines betreibt, das beginnt zu verschwimmen, kann sich melden, um die Operator-Schicht zu stärken, bevor die Fehlermodi eskalieren.

Die Praktiken von webvise sind an den ISO 27001- und ISO 42001-Standards ausgerichtet.