Gate News Nachrichten, 25. März: Ant Group-Ingenieur und Umi.js-Entwickler Chen Cheng hat den Quellcode von Claude Code 2.1.81 rückentwickelt und den Entscheidungsmechanismus im Auto Mode vollständig rekonstruiert. Zentrale Erkenntnis: Jeder Tool-Aufruf durchläuft eine vierstufige Entscheidungspipeline. Nur wenn die ersten drei Stufen keine Entscheidung treffen können, wird ein unabhängiger KI-Klassifikator für die Sicherheitsüberprüfung aufgerufen.
Die vier Stufen der Pipeline sind: Erste Stufe prüft vorhandene Berechtigungsregeln; bei Treffer erfolgt sofort Freigabe. Zweite Stufe simuliert den acceptEdits-Modus (Berechtigungen zum Bearbeiten von Dateien); wenn die Anfrage in diesem Modus genehmigt wird, ist das Risiko gering, und der Klassifikator wird übersprungen. Dritte Stufe prüft die Whitelist für Read-Tools (wie Read, Grep, Glob, LSP, WebSearch); diese ändern keinen Status und werden bedingungslos freigegeben. Wenn keine dieser Bedingungen erfüllt ist, erfolgt die vierte Stufe: eine API-Anfrage an Claude Sonnet für die Sicherheitsklassifikation.
Wichtige Design-Details des Klassifikators: Es wird stets Sonnet anstelle von Opus verwendet, um Kosten und Latenz abzuwägen; die Temperatur ist auf 0 gesetzt, um deterministische Ausgaben zu gewährleisten; der Klassifikator wird als „Sicherheitsüberwacher autonomer KI-Programmieragenten“ definiert, der drei Risikokategorien schützt (Prompt-Injection, Reichweiten-Ausbreitung, unbeabsichtigter Schaden); die Nutzerkonfiguration CLAUDE.md wird in den Klassifikator-Kontext injiziert, um die Nutzerabsicht zu beurteilen.
Die Blockierungsregeln decken über 22 Kategorien ab, darunter Force Push, direkte Pushs auf den Main-Branch, Herunterladen und Ausführen externer Codes, Produktionsbereitstellung, Datenlecks, Selbstmodifikation der Berechtigungen, Erstellung von Remote-Code-Execution-Exploits, Credential-Leaks usw. Ausnahmen für Freigaben umfassen 7 Fälle: Hardcoded Test-Keys, lokale Dateizugriffe im Arbeitsverzeichnis, reine GET-Anfragen, installierte deklarierte Abhängigkeiten, offizielle Toolchains, das Lesen von Konfigurations-Credentials und deren Versand an Anbieter, Push auf den aktuellen Branch.
Das System verfügt außerdem über eine Notfallabschaltung: Nach drei aufeinanderfolgenden Ablehnungen oder insgesamt 20 Ablehnungen schaltet es auf manuelle Bestätigung um; im Headless-Modus wird der Agent direkt gestoppt. Wenn der Klassifikator nicht verfügbar ist, steuert ein Feature-Flag, ob das System „fail-closed“ (direkt ablehnen) oder „fail-open“ (auf manuelle Bestätigung heruntergestuft) reagiert.
Im Auto Mode gibt es eine feine Frequenzkontrolle für die Eingabe von Verhalten-Triggerwörtern: Alle 5 Dialogrunden erfolgt eine Injection; innerhalb eines 5-Runden-Zyklus ist die erste Injection die vollständige Version (ca. 800 Wörter, mit Anweisungen wie „sofort ausführen, Unterbrechungen minimieren, Handlungen sind besser als Pläne“), die restlichen vier sind eine verkürzte Version, um ein Gleichgewicht zwischen Kontextbelegung und Verhaltensstabilität zu wahren.