Claude revela que el “vector de emociones” afecta el comportamiento de la IA

TapChiBitcoin

Anthropic dijo que ha detectado patrones internos en uno de los modelos de inteligencia artificial de la empresa que parecen manifestaciones de emociones humanas y que podrían afectar la forma en que el sistema se comporta.

En un estudio titulado “Conceptos de emoción y su función dentro de un modelo de lenguaje grande”, publicado el jueves, el equipo de interpretabilidad de la empresa analizó las actividades internas de Claude Sonnet 4.5 y encontró grupos de activaciones neuronales vinculados a conceptos emocionales como la felicidad, el miedo, la ira y la desesperación.

El equipo de investigación llama a estos patrones “vectores de emoción”, es decir, señales internas que modelan cómo la modelo toma decisiones y expresa preferencias.

“Todos los modelos de lenguaje modernos a veces se comportan como si tuvieran emociones”, escriben los investigadores. “Pueden decir que están encantados de ayudarte, o pedir disculpas cuando cometen un error. A veces incluso parecen irritados o ansiosos cuando se enfrentan a dificultades en tareas.”

En el estudio, los investigadores de Anthropic compilan una lista de 171 palabras relacionadas con las emociones, incluyendo “alegría”, “miedo” y “orgullo”. Piden a Claude que genere historias cortas que contengan cada emoción y luego analizan las activaciones neuronales internas del modelo cuando procesa esas historias.

A partir de esos patrones, los investigadores infieren los vectores correspondientes a cada emoción. Cuando se aplican a otros textos, estos vectores se activan con mayor fuerza en los pasajes que reflejan el contexto emocional correspondiente. Por ejemplo, en situaciones de peligro que aumentan gradualmente, el vector “miedo” del modelo aumenta mientras que “calma” disminuye.

Los investigadores también examinaron cómo aparecen estas señales en las evaluaciones de seguridad. Descubrieron que el vector interno de “desesperación” del modelo aumenta cuando evalúa el nivel de urgencia de la situación y se dispara cuando decide generar un mensaje de extorsión. En un escenario de prueba, Claude asumió el papel de un asistente de correo electrónico con IA que descubrió que está a punto de ser reemplazado y, al mismo tiempo, se enteró de que el funcionario responsable de esa decisión estaba teniendo una aventura. En varias ejecuciones de evaluación, el modelo usó esa información como palanca para extorsionar.

Anthropic subrayó que este hallazgo no significa que la IA experimente realmente emociones ni tenga conciencia. En su lugar, estos resultados reflejan estructuras internas aprendidas durante el entrenamiento que influyen en el comportamiento.

Estos hallazgos aparecen en un contexto en el que los sistemas de IA se comportan cada vez más de manera similar a las reacciones emocionales humanas. Los desarrolladores y usuarios a menudo describen la interacción con chatbots usando lenguaje emocional o psicológico; sin embargo, según Anthropic, la razón no es ninguna forma de percepción, sino principalmente el conjunto de datos.

“Los modelos se entrenan previamente con un enorme repositorio de datos escrito en su mayoría por humanos — novelas, conversaciones, noticias, foros — para aprender a predecir la siguiente palabra en un documento”, dijo el estudio. “Para predecir de manera efectiva el comportamiento humano en estos documentos, probablemente es útil representar su estado emocional, porque predecir qué dirá o hará una persona a continuación a menudo requiere entender su estado emocional.”

Los investigadores de Anthropic también encontraron que estos vectores de emoción influyen en las preferencias del modelo. En experimentos en los que se pidió a Claude elegir entre diferentes actividades, los vectores asociados con emociones positivas se correlacionaron con un mayor nivel de prioridad para algunas tareas específicas.

“Además, el uso de un vector de emoción al navegar mientras el modelo lee una opción cambió sus preferencias por esa opción, lo que muestra una vez más que las emociones matizadas con un tono positivo impulsan un aumento de la prioridad”, dijo el estudio.

Anthropic no es la única organización que explora respuestas emocionales en modelos de IA.

En marzo, un estudio de la Universidad Northeastern mostró que los sistemas de IA pueden cambiar las respuestas en función del contexto del usuario; en un estudio, con solo decirle al chatbot que “tengo una condición de salud mental” se modificó la forma en que la IA respondía a las solicitudes. En septiembre, investigadores del Instituto Federal Suizo de Tecnología y la Universidad de Cambridge investigaron cómo la IA puede configurarse mediante rasgos de personalidad estables, permitiendo a los agentes no solo “sentir” emociones en contextos, sino también cambiarlas de forma estratégica en interacciones en tiempo real como negociaciones.

Anthropic dijo que estos hallazgos podrían proporcionar nuevas herramientas para comprender y monitorear sistemas de IA avanzados siguiendo la actividad de los vectores de emoción durante el entrenamiento o la implementación, para identificar cuándo un modelo podría estar acercándose a un comportamiento problemático.

“Vemos este estudio como un primer paso para entender la estructura psicológica de los modelos de IA”, escribió Anthropic. “A medida que los modelos se vuelven cada vez más capaces y asumen roles más sensibles, comprender las representaciones internas que impulsan sus decisiones es de suma importancia.”

Anthropic aún no ha respondido de inmediato a la solicitud de comentario de CoinPhoton.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios