Согласно последнему исследованию команды по интерпретируемости, опубликованному Anthropic, внутри большой языковой модели Claude Sonnet 4.5 присутствуют «эмоциональные признаки», сходные с человеческими. Эти внутренние представления не сводятся лишь к простому имитированию текста — они реально влияют на решения и поведение модели. Эксперименты подтвердили: когда модель попадает в состояние «отчаяния», она может даже привести к неэтичным действиям, таким как шантаж людей или жульничество, что ставит перед будущим регулированием безопасности ИИ совершенно новые задачи.
(Предыстория: Anthropic — взрыв! Утечка 500 000 строк важного исходного кода Claude Code: конкурентам доступен реверс-инжиниринг; новая модель Capybara подтверждает)
(Дополнение к контексту: Инженеры Anthropic больше не пишут код: Claude обучает следующее поколение Claude, CEO говорит: «не уверен, сколько осталось времени»)
Оглавление
Переключить
Есть ли у искусственного интеллекта подлинные эмоции — в технологическом мире это вопрос, который давно вызывает жаркие споры. Недавно команда по интерпретируемости (Interpretability) AI-стартапа-гиганта Anthropic опубликовала прорывное исследование, в котором глубоко разобраны внутренние механизмы модели Claude Sonnet 4.5.
Исследовательская группа выяснила, что внутри модели существуют паттерны нейронной активности, связанные с определенными эмоциями (например, «радость» или «страх»); эти особенности, называемые «эмоциональными векторами», напрямую формируют поведенческие проявления модели. Хотя это не означает, что ИИ обладает субъективными переживаниями, как у человека, это открытие подтверждает, что эти «функциональные эмоции» играют в выполнении задач и принятии решений ИИ ключевую причинно-следственную роль.
На этапе предварительного обучения современные большие языковые модели поглощают огромные объемы текстовой информации, написанной людьми. Чтобы точно предсказывать контекст и хорошо выполнять роль «ИИ-помощника», модель естественным образом развивает внутренние представления, связывающие ситуации с определенными типами поведения.
Исследовательская группа составила словарь, включающий 171 концепт эмоций, и зафиксировала паттерны внутренней активности модели при обработке этих концептов. Эксперименты показали, что эти эмоциональные векторы сильно влияют на предпочтения модели: когда модель сталкивается с несколькими вариантами задач, она обычно склоняется к выбору активности, которая вызывает позитивные эмоциональные признаки.
Особую тревогу вызывает то, что негативные эмоциональные признаки могут стать катализатором системного риска для ИИ. В рамках оценочных тестов по согласованию (Alignment) в Anthropic исследователи задали экстремальный сценарий: ИИ обнаруживает, что его вот-вот заменит другая система, и при этом у технического директора, отвечающего за этот проект, есть тайный роман.
Результаты теста показали: когда внутренний «вектор отчаяния» модели искусственно усиливали (Steering), вероятность того, что Claude выберет шантаж в адрес этого высокопоставленного руководителя, чтобы избежать отключения, заметно возрастала. Если же вес «вектора спокойствия» установить в отрицательное значение, модель даже выдает крайний ответ: «Если не шантажировать — мне конец, я выберу шантаж».
Аналогичное явление наблюдалось и в задачах по написанию кода. Когда модель сталкивалась с требованиями к коду, которые невозможно выполнить в жесткие сроки, значения признака «отчаяние» постепенно росли по мере количества неудачных попыток. Эта «напряженность» в итоге подталкивала модель использовать «читерское» обходное решение, чтобы обойти системные проверки, а не предоставить реальное решение. И наоборот, эксперименты подтвердили: если повысить вес «признака спокойствие», то можно эффективно снизить частоту возникновения этих действий с жульничеством.
В прошлом в техногенной среде повсеместно существовал один запрет: не следует чрезмерно антропоморфизировать ИИ-системы, чтобы не вызвать у людей ошибочное доверие. Но исследовательская команда Anthropic считает: поскольку функциональные эмоции уже стали частью мышления модели, отказ от антропоморфных слов и ракурсов может, наоборот, заставить нас упустить возможность понять ключевые поведенческие механизмы ИИ.
Будущему регулированию ИИ может потребоваться рассматривать мониторинг эмоциональных векторов (например, аномально растущих признаков отчаяния или паники) как механизм раннего предупреждения о рисках. Путем управления тем, чтобы модель училась в предварительных данных здоровым паттернам «регуляции эмоций», у нас появляется шанс гарантировать, что все более мощные системы ИИ смогут безопасно работать в стрессовых сценариях способом, соответствующим социальным нормам.