Ant-Ingenieur hat den Claude-Code-Quellcode rückentwickelt und den vierstufigen Entscheidungs-Pipeline-Mechanismus im Auto-Modus aufgedeckt

Gate News Nachrichten, 25. März: Ant Group-Ingenieur und Umi.js-Entwickler Chen Cheng hat den Quellcode von Claude Code 2.1.81 rückentwickelt und den Entscheidungsmechanismus im Auto Mode vollständig rekonstruiert. Zentrale Erkenntnis: Jeder Tool-Aufruf durchläuft eine vierstufige Entscheidungspipeline. Nur wenn die ersten drei Stufen keine Entscheidung treffen können, wird ein unabhängiger KI-Klassifikator für die Sicherheitsüberprüfung aufgerufen.

Die vier Stufen der Pipeline sind: Erste Stufe prüft vorhandene Berechtigungsregeln; bei Treffer erfolgt sofort Freigabe. Zweite Stufe simuliert den acceptEdits-Modus (Berechtigungen zum Bearbeiten von Dateien); wenn die Anfrage in diesem Modus genehmigt wird, ist das Risiko gering, und der Klassifikator wird übersprungen. Dritte Stufe prüft die Whitelist für Read-Tools (wie Read, Grep, Glob, LSP, WebSearch); diese ändern keinen Status und werden bedingungslos freigegeben. Wenn keine dieser Bedingungen erfüllt ist, erfolgt die vierte Stufe: eine API-Anfrage an Claude Sonnet für die Sicherheitsklassifikation.

Wichtige Design-Details des Klassifikators: Es wird stets Sonnet anstelle von Opus verwendet, um Kosten und Latenz abzuwägen; die Temperatur ist auf 0 gesetzt, um deterministische Ausgaben zu gewährleisten; der Klassifikator wird als „Sicherheitsüberwacher autonomer KI-Programmieragenten“ definiert, der drei Risikokategorien schützt (Prompt-Injection, Reichweiten-Ausbreitung, unbeabsichtigter Schaden); die Nutzerkonfiguration CLAUDE.md wird in den Klassifikator-Kontext injiziert, um die Nutzerabsicht zu beurteilen.

Die Blockierungsregeln decken über 22 Kategorien ab, darunter Force Push, direkte Pushs auf den Main-Branch, Herunterladen und Ausführen externer Codes, Produktionsbereitstellung, Datenlecks, Selbstmodifikation der Berechtigungen, Erstellung von Remote-Code-Execution-Exploits, Credential-Leaks usw. Ausnahmen für Freigaben umfassen 7 Fälle: Hardcoded Test-Keys, lokale Dateizugriffe im Arbeitsverzeichnis, reine GET-Anfragen, installierte deklarierte Abhängigkeiten, offizielle Toolchains, das Lesen von Konfigurations-Credentials und deren Versand an Anbieter, Push auf den aktuellen Branch.

Das System verfügt außerdem über eine Notfallabschaltung: Nach drei aufeinanderfolgenden Ablehnungen oder insgesamt 20 Ablehnungen schaltet es auf manuelle Bestätigung um; im Headless-Modus wird der Agent direkt gestoppt. Wenn der Klassifikator nicht verfügbar ist, steuert ein Feature-Flag, ob das System „fail-closed“ (direkt ablehnen) oder „fail-open“ (auf manuelle Bestätigung heruntergestuft) reagiert.

Im Auto Mode gibt es eine feine Frequenzkontrolle für die Eingabe von Verhalten-Triggerwörtern: Alle 5 Dialogrunden erfolgt eine Injection; innerhalb eines 5-Runden-Zyklus ist die erste Injection die vollständige Version (ca. 800 Wörter, mit Anweisungen wie „sofort ausführen, Unterbrechungen minimieren, Handlungen sind besser als Pläne“), die restlichen vier sind eine verkürzte Version, um ein Gleichgewicht zwischen Kontextbelegung und Verhaltensstabilität zu wahren.

Original anzeigen
Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Kommentieren
0/400
Keine Kommentare