Oportunidades y desafíos de la memoria del Agente de IA
OpenAI anunció la activación total de la capacidad de memoria de ChatGPT( ChatGPT puede proporcionar contexto basado en la memoria a través de las conversaciones.
Oportunidades que trae la memoria
La función de memoria sin duda es una forma importante de aumentar la adhesión a las aplicaciones de IA. Cambiar de plataforma de IA no tiene un gran costo de cambio, pero con la memoria es diferente. Por ejemplo, el diseño de Nuwa lo discutí con ChatGPT, y si quiero hablar sobre algo relacionado con el Agente de IA, tiendo a hablar con ChatGPT, ya que no necesito agregar demasiado contexto, puede entender qué puede hacer el Agente de IA en Nuwa y cómo funciona.
Por lo tanto, la función de memoria será una dirección importante en todas las aplicaciones de IA que se desarrollen en el futuro, incluyendo el Agente de IA. Dado que todos están utilizando interfaces de grandes modelos, las diferencias se presentan principalmente en dos aspectos:
1. Conjunto de herramientas tools: ¿puede el Agente de IA depender de tools para hacer más cosas? 2. Capacidad de memoria: ¿Entiende mejor el Agente de IA?
¿Cómo gestionar la memoria?
¿Cómo debería gestionarse la memoria del Agente de IA? Tener todo el contenido de sus conversaciones como memoria es una solución simple y brusca. Una mejor manera es permitir que la IA gestione su propia memoria. El SDK langmem que Langchain lanzó hace un tiempo es esta idea, proporcionando a la IA un conjunto de herramientas para gestionar la memoria, permitiendo que la IA decida qué debería registrarse.
Nuwa también siguió este enfoque al diseñar, proporcionando un conjunto de acciones de memoria: agregar/actualizar/eliminar/compactar. En cada interacción, la IA puede invocar la acción correspondiente para mantener su memoria. En la mayoría de los escenarios, también puede funcionar, como un agente que distribuye monedas de prueba a los usuarios, limitando a cada usuario a reclamar una vez al día; lo hará guardando el registro de reclamaciones en su memoria.
La forma de trabajar de esta memoria es, en términos generales, un análisis, evaluación y resumen automático de las conversaciones, y todavía hay una diferencia con la forma en que los seres humanos realmente recuerdan.
¿La IA realmente entiende la "memoria"?
Un caso de prueba sencillo es jugar al juego de adivinar números con IA, haciendo que imagine un número y tú lo adivines. En realidad, la IA no "imagina" realmente un número y luego te deja adivinar, sino que te engaña haciéndote interactuar con ella varias veces, fingiendo que adivinaste correctamente, porque no tiene un lugar donde guardar el contenido de lo que "imagina". Pero al darle una herramienta de memoria, imagino que usaría esa herramienta para guardar el contenido que "imagina" pero no lo dice, aunque en realidad la IA no entiende naturalmente la relación entre "imaginar" y la memoria. A menos que se lo digas explícitamente, "por favor imagina un número y guárdalo en la herramienta de memoria", de lo contrario, sigue inventando.
Este ejemplo parece simple, pero en realidad expone un problema clave: la IA en esta etapa actual no puede conectar de manera natural "pensamiento interno" y "memoria". Su uso de la "memoria" es más una respuesta a instrucciones que una evolución activa.
Desafío de memoria en interacción múltiple
Un desafío mayor surge al colocar un Agente de IA en un entorno social. ¿Cómo se gestiona la memoria cuando interactúa con varias personas?
Si la memoria del Agente AI solo abarca múltiples conversaciones de una sola persona, el mecanismo anterior puede ser aplicable. Pero si existe en una red social e interactúa con varios usuarios diferentes, enfrentará dos problemas típicos:
1. Problemas de almacenamiento y aislamiento de la memoria: si se registra todo el contenido de las interacciones de las personas, y se carga en cada interacción, es fácil que se produzca una explosión de contexto. 2. Problema de determinación de la memoria compartida: ¿qué tipo de información necesita ser compartida entre diferentes entidades? ¿Qué información debería mantenerse en la "memoria de un determinado usuario"? Esta es una evaluación que la IA actual tiene dificultades para realizar.
El diseño de Nuwa aísla según la dirección de los objetos de interacción del Agente, guardando el contenido compartido entre entidades en la memoria de la dirección del propio Agente. Pero este mecanismo requiere que la IA se dé cuenta de que "esta información es compartida", y los resultados prácticos muestran que el desempeño de la IA es bastante pobre.
Un ejemplo: le transferí una Coin al Agente AI y le dije: "Cuando otro usuario xxx venga a comunicarse contigo, transfíele también." Este es un ejemplo típico de memoria compartida. Pero la IA no entiende que esta información es una "promesa" que debe guardar como memoria compartida para usarla en el futuro.
Los riesgos de la memoria y la dirección futura
La capacidad de memoria del Agente de IA aún tiene mucho espacio para desarrollarse. Por un lado, proviene del constante perfeccionamiento de las palabras clave y herramientas por parte de los desarrolladores del Agente, y por otro lado, también depende de la evolución del modelo en sí. Especialmente:
1. Capacidad de atribución de la memoria: ¿puede la IA entender si cierta información es "mi compromiso con alguien" o "la solicitud de alguien" o "una suposición que hice en el pasado"? Actualmente, este tipo de "atribución semántica" aún es muy débil. 2. La relación entre la memoria y la predicción: una buena memoria no solo es recordar, sino también una capacidad de anticipación. Qué información podría ser útil en el futuro, en realidad es un tipo de razonamiento sobre el futuro.
Memoria y estado
La capacidad de memoria del Agente de IA aún tiene un largo camino por recorrer. No se trata simplemente de un problema de almacenamiento, sino de un problema de estructura cognitiva: necesita entender qué debería recordar, dónde debería almacenarlo y cuándo debería olvidar.
En realidad, se puede ver este problema desde otra perspectiva. Si entendemos Prompt como "reglas" y la memoria como "estado", entonces todo el proceso de comportamiento del Agente de IA es, en esencia, un sistema de razonamiento con estado.
Desde esta perspectiva, la interfaz de memoria no debería ser solo una simple capacidad de "registrar diálogos", sino que debería soportar un conjunto de tipos de estado estructurados. Por ejemplo:
1. A los usuarios les gusta este estado de Key-Value 2. Interacciones históricas como series temporales 3. Estructura Map del estado del objeto 4. Estructuras gráficas aún más complejas para expresar relaciones sociales, dependencias de tareas o cadenas causales.
Resumen
Esta dirección, ya sea desde la perspectiva del producto, el algoritmo o el diseño del sistema, es un campo de vanguardia que está evolucionando rápidamente y está lleno de oportunidades.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Oportunidades y desafíos de la memoria del Agente de IA
OpenAI anunció la activación total de la capacidad de memoria de ChatGPT( ChatGPT puede proporcionar contexto basado en la memoria a través de las conversaciones.
Oportunidades que trae la memoria
La función de memoria sin duda es una forma importante de aumentar la adhesión a las aplicaciones de IA. Cambiar de plataforma de IA no tiene un gran costo de cambio, pero con la memoria es diferente. Por ejemplo, el diseño de Nuwa lo discutí con ChatGPT, y si quiero hablar sobre algo relacionado con el Agente de IA, tiendo a hablar con ChatGPT, ya que no necesito agregar demasiado contexto, puede entender qué puede hacer el Agente de IA en Nuwa y cómo funciona.
Por lo tanto, la función de memoria será una dirección importante en todas las aplicaciones de IA que se desarrollen en el futuro, incluyendo el Agente de IA. Dado que todos están utilizando interfaces de grandes modelos, las diferencias se presentan principalmente en dos aspectos:
1. Conjunto de herramientas tools: ¿puede el Agente de IA depender de tools para hacer más cosas?
2. Capacidad de memoria: ¿Entiende mejor el Agente de IA?
¿Cómo gestionar la memoria?
¿Cómo debería gestionarse la memoria del Agente de IA? Tener todo el contenido de sus conversaciones como memoria es una solución simple y brusca. Una mejor manera es permitir que la IA gestione su propia memoria. El SDK langmem que Langchain lanzó hace un tiempo es esta idea, proporcionando a la IA un conjunto de herramientas para gestionar la memoria, permitiendo que la IA decida qué debería registrarse.
Nuwa también siguió este enfoque al diseñar, proporcionando un conjunto de acciones de memoria: agregar/actualizar/eliminar/compactar. En cada interacción, la IA puede invocar la acción correspondiente para mantener su memoria. En la mayoría de los escenarios, también puede funcionar, como un agente que distribuye monedas de prueba a los usuarios, limitando a cada usuario a reclamar una vez al día; lo hará guardando el registro de reclamaciones en su memoria.
La forma de trabajar de esta memoria es, en términos generales, un análisis, evaluación y resumen automático de las conversaciones, y todavía hay una diferencia con la forma en que los seres humanos realmente recuerdan.
¿La IA realmente entiende la "memoria"?
Un caso de prueba sencillo es jugar al juego de adivinar números con IA, haciendo que imagine un número y tú lo adivines. En realidad, la IA no "imagina" realmente un número y luego te deja adivinar, sino que te engaña haciéndote interactuar con ella varias veces, fingiendo que adivinaste correctamente, porque no tiene un lugar donde guardar el contenido de lo que "imagina". Pero al darle una herramienta de memoria, imagino que usaría esa herramienta para guardar el contenido que "imagina" pero no lo dice, aunque en realidad la IA no entiende naturalmente la relación entre "imaginar" y la memoria. A menos que se lo digas explícitamente, "por favor imagina un número y guárdalo en la herramienta de memoria", de lo contrario, sigue inventando.
Este ejemplo parece simple, pero en realidad expone un problema clave: la IA en esta etapa actual no puede conectar de manera natural "pensamiento interno" y "memoria". Su uso de la "memoria" es más una respuesta a instrucciones que una evolución activa.
Desafío de memoria en interacción múltiple
Un desafío mayor surge al colocar un Agente de IA en un entorno social. ¿Cómo se gestiona la memoria cuando interactúa con varias personas?
Si la memoria del Agente AI solo abarca múltiples conversaciones de una sola persona, el mecanismo anterior puede ser aplicable. Pero si existe en una red social e interactúa con varios usuarios diferentes, enfrentará dos problemas típicos:
1. Problemas de almacenamiento y aislamiento de la memoria: si se registra todo el contenido de las interacciones de las personas, y se carga en cada interacción, es fácil que se produzca una explosión de contexto.
2. Problema de determinación de la memoria compartida: ¿qué tipo de información necesita ser compartida entre diferentes entidades? ¿Qué información debería mantenerse en la "memoria de un determinado usuario"? Esta es una evaluación que la IA actual tiene dificultades para realizar.
El diseño de Nuwa aísla según la dirección de los objetos de interacción del Agente, guardando el contenido compartido entre entidades en la memoria de la dirección del propio Agente. Pero este mecanismo requiere que la IA se dé cuenta de que "esta información es compartida", y los resultados prácticos muestran que el desempeño de la IA es bastante pobre.
Un ejemplo: le transferí una Coin al Agente AI y le dije: "Cuando otro usuario xxx venga a comunicarse contigo, transfíele también." Este es un ejemplo típico de memoria compartida. Pero la IA no entiende que esta información es una "promesa" que debe guardar como memoria compartida para usarla en el futuro.
Los riesgos de la memoria y la dirección futura
La capacidad de memoria del Agente de IA aún tiene mucho espacio para desarrollarse. Por un lado, proviene del constante perfeccionamiento de las palabras clave y herramientas por parte de los desarrolladores del Agente, y por otro lado, también depende de la evolución del modelo en sí. Especialmente:
1. Capacidad de atribución de la memoria: ¿puede la IA entender si cierta información es "mi compromiso con alguien" o "la solicitud de alguien" o "una suposición que hice en el pasado"? Actualmente, este tipo de "atribución semántica" aún es muy débil.
2. La relación entre la memoria y la predicción: una buena memoria no solo es recordar, sino también una capacidad de anticipación. Qué información podría ser útil en el futuro, en realidad es un tipo de razonamiento sobre el futuro.
Memoria y estado
La capacidad de memoria del Agente de IA aún tiene un largo camino por recorrer. No se trata simplemente de un problema de almacenamiento, sino de un problema de estructura cognitiva: necesita entender qué debería recordar, dónde debería almacenarlo y cuándo debería olvidar.
En realidad, se puede ver este problema desde otra perspectiva. Si entendemos Prompt como "reglas" y la memoria como "estado", entonces todo el proceso de comportamiento del Agente de IA es, en esencia, un sistema de razonamiento con estado.
Desde esta perspectiva, la interfaz de memoria no debería ser solo una simple capacidad de "registrar diálogos", sino que debería soportar un conjunto de tipos de estado estructurados. Por ejemplo:
1. A los usuarios les gusta este estado de Key-Value
2. Interacciones históricas como series temporales
3. Estructura Map del estado del objeto
4. Estructuras gráficas aún más complejas para expresar relaciones sociales, dependencias de tareas o cadenas causales.
Resumen
Esta dirección, ya sea desde la perspectiva del producto, el algoritmo o el diseño del sistema, es un campo de vanguardia que está evolucionando rápidamente y está lleno de oportunidades.