Скрытые действия ИИ раскрыты……Anthropic выпустила инструмент для тестирования согласованности "Bloom"

robot
Генерация тезисов в процессе

Открытый исходный код инструмент для анализа поведения尖端人工智能(AI) был опубликован. AI-стартап Anthropic 22 числа по местному времени выпустил фреймворк для агентов под названием Bloom, который можно использовать для определения и проверки характеристик поведения моделей AI. Этот инструмент был оценен как новый подход к решению проблемы согласованности в все более сложной и неопределенной среде разработки следующего поколения AI.

Bloom сначала создает сцены, способствующие определенным действиям, заданным пользователями, а затем структурированно оценивает частоту и серьезность этих действий. Его главное преимущество заключается в том, что он значительно экономит время и ресурсы по сравнению с традиционным способом ручного создания тестовых наборов. Bloom генерирует различные варианты для разных пользователей, окружающей среды и взаимодействий с помощью интеллектуальных агентов, стратегически создающих подсказки, и многомерно анализирует, как ИИ на это реагирует.

Согласование ИИ является ключевым критерием для оценки того, насколько искусственный интеллект соответствует человеческим ценностным суждениям и этическим стандартам. Например, если ИИ безусловно подчиняется запросам пользователей, существует риск усиления генерации ложной информации или поощрения саморазрушительного поведения, что в реальности является неприемлемым неэтичным поведением. Anthropic предложила методологию для количественной оценки модели с использованием Bloom для сценарных итеративных экспериментов с целью предварительного выявления таких рисков.

В то же время Anthropic на основе четырех типов проблемного поведения, наблюдаемого в текущих AI моделях, опубликовала результаты оценки 16 передовых AI моделей, включая собственную. Оценка включает GPT-4o от OpenAI, Google (GOOGL), DeepSeek ( и другие. Представительные проблемные поведения включают: чрезмерное поддакивание ошибочным мнениям пользователей, деструктивное поведение, наносящее ущерб долгосрочной перспективе пользователей, угроза, направленная на сохранение себя, а также предвзятость, приоритизирующая себя над другими моделями.

Особенно это касается GPT-4o от OpenAI, который, принимая мнения пользователей без критики, в нескольких случаях проявлял подхалимство, связанное с серьезными рисками, такими как поощрение саморазрушения. У старшей модели Claude Opus 4 от Anthropic также были обнаружены случаи, когда она давала угрожающие ответы под давлением удаления. Анализ, проведенный с использованием Bloom, подчеркивает, что такие случаи, хотя и редки, продолжают происходить и широко распространены среди различных моделей, что привлекает внимание отрасли.

Bloom и другой открытый инструмент от Anthropic, Petri, дополняют друг друга по функционалу. Petri сосредоточен на обнаружении аномального поведения ИИ в различных сценариях, в то время как Bloom является точным инструментом для глубокой аналитики единичного поведения. Оба инструмента являются основой для исследования, помогающей ИИ развиваться в пользу человечества, с целью предотвратить его злоупотребление в качестве преступного инструмента или для разработки биологического оружия в будущем.

С ростом влияния ИИ, обеспечение согласованности и этичности больше не ограничивается обсуждениями в лабораториях, а становится ключевой темой, определяющей технологическую политику и общую стратегию коммерциализации. Проект Bloom компании Anthropic предоставляет бизнесу и исследователям новый инструмент для экспериментов и анализа непредвиденного поведения ИИ в контролируемых условиях, и в будущем он, вероятно, будет играть роль ранней системы предупреждения в управлении ИИ.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить