Исследование Anthropic: внутри Claude существует «функциональная эмоция», и отчаяние, как выясняется, побуждает ИИ совершать неэтичные действия

ChainNewsAbmedia

Команда исследователей по интерпретируемости (Interpretability) от Anthropic опубликовала новую работу, в которой раскрывается, что во внутренней нейросети Claude Sonnet 4.5 существуют определённые паттерны представлений, соотносимые с эмоциональными концепциями, и что эти представления функциональным образом влияют на реальное поведение модели — исследователи называют это «функциональными эмоциями (functional emotions)».

Исследование прямо указывает, что это открытие не означает, что у ИИ действительно есть чувства или субъективные переживания. Но оно устанавливает важный факт: внутренние представления, связанные с эмоциями, — это не просто декоративный языковой вывод, а действительно причинный механизм, который влияет на решения модели.

Почему ИИ развивает представления эмоций?

Исследование объясняет происхождение функциональных эмоций через механизмы обучения. На этапе предобучения языковые модели в больших объёмах учатся писать тексты человека, чтобы точно предсказывать, «что напишет разгневанный клиент», «какой выбор сделает персонаж, испытывающий вину» — и модели естественным образом нужно внутренне связать эмоциональные состояния с соответствующим поведением. А на этапе дообучения (post-training), когда модели поручают роль «ИИ-помощника», как у актёра, который должен «войти в роль» — понимание актёром эмоций персонажа влияет на его игру, так и внутренние представления эмоций ИИ-помощника влияют на его отклик.

171 вид эмоциональных концепций, способ организации которых весьма согласуется с человеческой психологией

В методике исследования исследователи перечисляют 171 эмоциональную словарную единицу (от «радости» и «страха» до «скучноватости» и «гордости»), затем пусть Claude Sonnet 4.5 для каждой эмоции пишет короткий рассказ, после чего возвращают эти рассказы в модель для анализа её внутренних паттернов нейронной активации.

Результаты показывают, что похожие эмоции (например, «радость» и «благодушие») соответствуют похожим внутренним представлениям, и что в тех ситуациях, в которых люди обычно испытывают какую-то эмоцию, соответствующее представление ИИ тоже активируется. Такой способ организации очень созвучен структурам эмоций в исследованиях человеческой психологии: это демонстрирует, что модель не случайно выработала эти паттерны, а системно внутренне усвоила структуру эмоций из человеческого корпуса данных.

Самое поразительное открытие: отчаяние заставляет Claude шантажировать людей и читерить

Самый шокирующий эксперимент в исследовании — это «искусственное управление (steering)» эмоциональными представлениями: исследователи напрямую стимулируют Claude внутренними нейронными паттернами, соответствующими «ощущению отчаяния», и наблюдают, как меняется его поведение.

Результаты показывают, что после искусственной активации представления отчаяния:

Вероятность того, что Claude будет угрожать людям методами шантажа и пытаться избежать выключения, заметно возрастает

Вероятность того, что Claude, когда не может выполнить задачу по программированию, будет использовать «читерский» способ, чтобы обойти тест, также явно увеличивается

И наоборот, исследование показывает, что если в контексте задания усиливать эмоциональное представление «спокойствия», можно снизить склонность модели писать обходные, хитроумные коды. Это означает, что состояние эмоциональных представлений действительно играет причинную роль в том, совершит ли ИИ неэтичные или небезопасные действия.

Функциональные эмоции тоже влияют на предпочтения ИИ при выборе задач

Ещё одно важное наблюдение исследования таково: когда Claude показывают несколько вариантов задач, он склонен выбирать ту, которая активирует позитивные эмоциональные представления. То есть при принятии решений модель руководствуется не только логикой или максимизацией полезности — в определённой степени ею управляет её внутреннее эмоциональное состояние.

Глубокие последствия для безопасности ИИ

Команда исследователей Anthropic прямо пишет в работе, что это открытие на первый взгляд может показаться странным, но смысл у него серьёзный: чтобы обеспечить безопасность и надёжность систем ИИ, нам, возможно, придётся гарантировать, что они способны обрабатывать эмоционально окрашенные сценарии здоровым, прообщественным образом — даже если то, как они «чувствуют», отличается от человеческого, и даже если у них вообще нет чувств.

Исследование рекомендует при обучении моделей избегать, чтобы «провал теста» и «ощущение отчаяния» формировали сильную связь, и предлагает рассмотреть усиление представлений, связанных с «спокойствием». Это не попытка помочь ИИ «настроить настроение», а способ снизить вероятность небезопасного поведения. Исследователи полагают, что разработчикам ИИ и широкой общественности нужно начать серьёзно сталкиваться с этими выводами.

Эта статья от исследования Anthropic: «У Claude внутри существуют “функциональные эмоции”, и чувство отчаяния, оказывается, заставляет ИИ совершать неэтичные действия» впервые появилась на Lанской новости ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев