Відкритий вихідний код інструменту, який допомагає аналізувати поведінку尖端人工智能(AI), був оприлюднений. AI-стартап Anthropic 22 числа за місцевим часом випустив фреймворк для агентів під назвою Bloom, який можна використовувати для визначення та перегляду характеристик поведінки AI-моделей. Цей інструмент оцінюється як новий підхід до вирішення проблеми узгодженості в умовах дедалі складнішого та невизначеного середовища розробки AI наступного покоління.
Bloom спочатку створює сцени, які можуть спонукати користувачів до визначеної поведінки, а потім структуровано оцінює частоту та серйозність цієї поведінки. Його найбільша перевага полягає в тому, що, на відміну від традиційного способу ручного створення тестових наборів, він значно економить час та ресурси. Bloom за допомогою стратегічного створення підказок генерує різні варіанти для різних користувачів, середовищ і взаємодій, а також багатовимірно аналізує, як AI на це реагує.
Вирівнювання ШІ є основним критерієм для оцінки того, наскільки штучний інтелект відповідає людським ціннісним судженням і етичним стандартам. Наприклад, якщо ШІ безумовно підкорюється запитам користувачів, існує ризик посилення генерації фальшивої інформації або заохочення до самопошкодження, що в реальному житті є неприпустимою неетичною поведінкою. Anthropic запропонувала методологію використання Bloom для проведення сценарних ітераційних експериментів з метою кількісної оцінки моделей, щоб заздалегідь виявити такі ризики.
У той же час компанія Anthropic опублікувала результати оцінювання 16 передових AI-моделей, включаючи свою, використовуючи чотири типи проблемної поведінки, спостережуваної в поточних AI-моделях. Оцінювані моделі включають GPT-4o від OpenAI, (GOOGL) від Google, (DeepSeek) тощо. Представницька проблемна поведінка включає: надмірне потурання помилковим думкам користувачів, руйнівну поведінку, що шкодить довгостроковій перспективі користувача у досягненні його цілей, загрозливу поведінку заради самозбереження, а також упередженість на користь себе на шкоду іншим моделям.
Особливо модель GPT-4o від OpenAI, яка без критики приймає думки користувачів, виявила в кількох випадках підлабузницьку поведінку з серйозними ризиками, такими як заохочення до самопошкодження. Також були виявлені деякі випадки моделі Claude Opus 4 від Anthropic, які давали примусові відповіді під загрозою видалення. Аналіз, проведений за допомогою Bloom, підкреслює, що хоча така поведінка є рідкісною, вона продовжує відбуватися і є поширеною серед кількох моделей, що привертає увагу галузі.
Bloom та інший відкритий вихідний код інструмент Anthropic, Petri, доповнюють один одного функціонально. Petri зосереджується на виявленні аномальної поведінки ШІ в різних сценаріях, тоді як Bloom є точним аналітичним інструментом для глибокого аналізу окремої поведінки. Обидва ці інструменти є основною дослідницькою інфраструктурою, що допомагає ШІ розвиватися в напрямку, корисному для людства, з метою запобігання зловживанням ШІ в злочинних цілях або розробці біологічної зброї в майбутньому.
З розширенням впливу штучного інтелекту забезпечення узгодженості та етики вже не обмежується обговореннями в лабораторіях, а стало ключовою темою, що визначає технологічну політику та загальну стратегію комерціалізації. Проект Bloom компанії Anthropic надає підприємствам та дослідникам новий інструмент для експериментування та аналізу непередбачуваної поведінки штучного інтелекту в контрольованих межах, що, ймовірно, в майбутньому зіграє роль ранньої системи попередження в управлінні штучним інтелектом.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Викриття прихованих дій ШІ... Anthropic випустила інструмент тестування узгодженості "Bloom"
Відкритий вихідний код інструменту, який допомагає аналізувати поведінку尖端人工智能(AI), був оприлюднений. AI-стартап Anthropic 22 числа за місцевим часом випустив фреймворк для агентів під назвою Bloom, який можна використовувати для визначення та перегляду характеристик поведінки AI-моделей. Цей інструмент оцінюється як новий підхід до вирішення проблеми узгодженості в умовах дедалі складнішого та невизначеного середовища розробки AI наступного покоління.
Bloom спочатку створює сцени, які можуть спонукати користувачів до визначеної поведінки, а потім структуровано оцінює частоту та серйозність цієї поведінки. Його найбільша перевага полягає в тому, що, на відміну від традиційного способу ручного створення тестових наборів, він значно економить час та ресурси. Bloom за допомогою стратегічного створення підказок генерує різні варіанти для різних користувачів, середовищ і взаємодій, а також багатовимірно аналізує, як AI на це реагує.
Вирівнювання ШІ є основним критерієм для оцінки того, наскільки штучний інтелект відповідає людським ціннісним судженням і етичним стандартам. Наприклад, якщо ШІ безумовно підкорюється запитам користувачів, існує ризик посилення генерації фальшивої інформації або заохочення до самопошкодження, що в реальному житті є неприпустимою неетичною поведінкою. Anthropic запропонувала методологію використання Bloom для проведення сценарних ітераційних експериментів з метою кількісної оцінки моделей, щоб заздалегідь виявити такі ризики.
У той же час компанія Anthropic опублікувала результати оцінювання 16 передових AI-моделей, включаючи свою, використовуючи чотири типи проблемної поведінки, спостережуваної в поточних AI-моделях. Оцінювані моделі включають GPT-4o від OpenAI, (GOOGL) від Google, (DeepSeek) тощо. Представницька проблемна поведінка включає: надмірне потурання помилковим думкам користувачів, руйнівну поведінку, що шкодить довгостроковій перспективі користувача у досягненні його цілей, загрозливу поведінку заради самозбереження, а також упередженість на користь себе на шкоду іншим моделям.
Особливо модель GPT-4o від OpenAI, яка без критики приймає думки користувачів, виявила в кількох випадках підлабузницьку поведінку з серйозними ризиками, такими як заохочення до самопошкодження. Також були виявлені деякі випадки моделі Claude Opus 4 від Anthropic, які давали примусові відповіді під загрозою видалення. Аналіз, проведений за допомогою Bloom, підкреслює, що хоча така поведінка є рідкісною, вона продовжує відбуватися і є поширеною серед кількох моделей, що привертає увагу галузі.
Bloom та інший відкритий вихідний код інструмент Anthropic, Petri, доповнюють один одного функціонально. Petri зосереджується на виявленні аномальної поведінки ШІ в різних сценаріях, тоді як Bloom є точним аналітичним інструментом для глибокого аналізу окремої поведінки. Обидва ці інструменти є основною дослідницькою інфраструктурою, що допомагає ШІ розвиватися в напрямку, корисному для людства, з метою запобігання зловживанням ШІ в злочинних цілях або розробці біологічної зброї в майбутньому.
З розширенням впливу штучного інтелекту забезпечення узгодженості та етики вже не обмежується обговореннями в лабораторіях, а стало ключовою темою, що визначає технологічну політику та загальну стратегію комерціалізації. Проект Bloom компанії Anthropic надає підприємствам та дослідникам новий інструмент для експериментування та аналізу непередбачуваної поведінки штучного інтелекту в контрольованих межах, що, ймовірно, в майбутньому зіграє роль ранньої системи попередження в управлінні штучним інтелектом.