По сообщению CoinWorld, согласно мониторингу 1M AI News, инженер Ant Group и автор фронтенд-фреймворка Umi.js Чэнь Чэн провёл реверс-инжиниринг исходного кода Claude Code 2.1.81 и полностью восстановил происходящее после нажатия auto mode. Основное открытие: каждый вызов инструмента проходит через четырёхуровневую цепочку решений, и только если три первых уровня не могут определить безопасность, вызывается отдельный AI-классификатор для проверки. Четыре уровня цепочки: первый — проверка существующих правил доступа, при совпадении — пропуск; второй — моделирование режима acceptEdits (разрешение редактирования файлов), если в этом режиме проходит — риск считается низким, пропуск без классификатора; третий — проверка белого списка инструментов только для чтения (Read, Grep, Glob, LSP, WebSearch и др.), которые не изменяют состояние, — безусловный пропуск; только если все эти уровни не срабатывают, вызывается четвёртый — отправка отдельного API-запроса к Claude Sonnet для оценки безопасности. Ключевые детали дизайна классификатора: всегда используется Sonnet вместо Opus для балансировки стоимости и задержки; temperature установлен в 0 для обеспечения детерминированности вывода; классификатор определён как «безопасный мониторинг агента автономного AI-программирования», защищающий от трёх типов рисков (инъекция подсказок, распространение по диапазону, случайный ущерб); конфигурационный файл пользователя CLAUDE.md внедряется в контекст классификатора как основание для определения пользовательских намерений. Правила блокировки охватывают более 22 категорий, включая force push, прямое пушение в main, загрузку и выполнение внешнего кода, производственные развертывания, утечку данных, самовнесённые изменения прав, создание удалённых уязвимостей для выполнения кода, утечку учётных данных и др. Исключения из пропуска — 7 категорий: тестовые ключи, локальные файлы в рабочей директории, только чтение GET-запросы, установка заявленных зависимостей, установка официальных инструментов, чтение конфигурационных учётных данных и отправка их поставщикам, пуш в текущую ветку. Также реализована система «фейлов» — при трёх подряд отказах или 20 отказах суммарно система переходит в режим ручного подтверждения; в headless-режиме агент полностью останавливается. Когда классификатор недоступен, управление осуществляется флагом функции: «fail-closed» (прямой отказ) или «fail-open» (переход к ручному подтверждению). В режиме auto mode контроль частоты инъекций подсказок также реализован: каждые 5 диалогов происходит инъекция, в каждом пятом цикле первая — полный вариант (около 800 слов, включает шесть команд, таких как «немедленно выполнять», «минимизировать прерывания», «действие важнее плана»), остальные четыре — укороченные версии, чтобы сбалансировать использование контекстного окна и стабильность поведения.