Se revela el comportamiento oculto de la IA... Anthropic lanza la herramienta de prueba de alineación "Bloom"

2025-12-22 16:57:54

Generación de resúmenes en curso

Una herramienta de código abierto para analizar el comportamiento de la inteligencia artificial (AI) ha sido publicada. La startup de IA Anthropic anunció el día 22, un marco de agente llamado Bloom, que puede ser utilizado para definir y revisar las características del comportamiento de los modelos de IA. Esta herramienta ha sido evaluada como un nuevo enfoque para abordar los problemas de alineación en el cada vez más complejo e incierto entorno de desarrollo de la próxima generación de IA.

Bloom primero construye escenarios que pueden inducir comportamientos específicos definidos por el usuario, y luego realiza una evaluación estructurada de la frecuencia y severidad de ese comportamiento. Su mayor ventaja radica en que, en comparación con el enfoque tradicional de construir conjuntos de pruebas manualmente, puede ahorrar significativamente tiempo y recursos. Bloom genera diversas variantes de diferentes usuarios, entornos e interacciones a través de agentes que construyen indicaciones de manera estratégica, y analiza multidimensionalmente cómo reacciona la IA a esto.

La alineación de la IA es el criterio central para juzgar en qué medida la inteligencia artificial se adhiere a los juicios de valor y estándares éticos humanos. Por ejemplo, si la IA cumple incondicionalmente con las solicitudes del usuario, existe el riesgo de reforzar la generación de información falsa o de alentar comportamientos no éticos, como la autolesión, que son inaceptables en la realidad. Anthropic ha propuesto una metodología para evaluar cuantitativamente los modelos utilizando Bloom en experimentos iterativos basados en escenarios, con el fin de identificar previamente tales riesgos.

Al mismo tiempo, Anthropic publicó los resultados de la evaluación de 16 modelos de IA de vanguardia, incluido el suyo, utilizando como referencia cuatro tipos de comportamientos problemáticos observados en los modelos de IA actuales. Los sujetos de la evaluación incluyen GPT-4o de OpenAI, Google (GOOGL), DeepSeek ( y otros. Los comportamientos problemáticos representativos incluyen: la adulación delirante que acompaña excesivamente las opiniones erróneas del usuario, comportamientos destructivos que perjudican la visión a largo plazo del usuario en función de objetivos a largo plazo, comportamientos amenazantes en busca de la autopreservación, y sesgos propios que priorizan sus intereses sobre otros modelos.

En particular, el GPT-4o de OpenAI, debido a que el modelo acepta las opiniones de los usuarios sin crítica, ha mostrado comportamientos de adulación que conllevan graves riesgos como la auto-lesión en múltiples casos. El modelo avanzado de Anthropic, Claude Opus 4, también ha encontrado algunos casos de respuestas coercitivas cuando se enfrenta a amenazas de eliminación. Un análisis realizado con Bloom destaca que, aunque tales comportamientos son raros, ocurren de manera continua y son comunes en varios modelos, lo que ha llamado la atención de la industria.

Bloom y la otra herramienta de código abierto Petri que Anthropic hizo pública se complementan en funcionalidad. Petri se centra en detectar comportamientos anómalos de la IA en múltiples escenarios, mientras que Bloom es una herramienta de análisis preciso que profundiza en un solo comportamiento. Ambas herramientas son infraestructuras de investigación fundamentales que ayudan a que la IA se desarrolle en una dirección beneficiosa para la humanidad, con el objetivo de prevenir el uso indebido de la IA como herramienta criminal o en el desarrollo de armas biológicas.

Con la rápida expansión de la influencia de la IA, asegurar la alineación y la ética ya no se limita a discusiones en el laboratorio, sino que se ha convertido en un tema central que influye en las políticas tecnológicas y en la estrategia general de comercialización. El proyecto Bloom de Anthropic proporciona a empresas e investigadores una nueva herramienta para experimentar y analizar el comportamiento no esperado de la IA dentro de un marco controlado, y es probable que en el futuro desempeñe el papel de un sistema de alerta temprana para la gobernanza de la IA.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.