2025-04-12 08:23:49

Opportunités et défis de la mémoire de l'agent IA

OpenAI annonce l'activation complète de la capacité de mémoire de ChatGPT ( ChatGPT peut fournir un contexte basé sur la mémoire entre les sessions.

Les opportunités offertes par la mémoire

La fonction de mémoire est sans aucun doute un moyen important d'augmenter la rétention des applications d'IA. Le coût de changement de plateforme d'IA n'est normalement pas très élevé, mais avec la mémoire, c'est différent. Par exemple, la conception de Nuwa, je l'ai discutée avec ChatGPT. Si je veux parler de quelque chose en rapport avec l'Agent IA, je préfère discuter avec ChatGPT, car il peut comprendre ce que l'Agent IA de Nuwa peut faire et comment il fonctionne sans que j'aie besoin d'ajouter trop de contexte.

Ainsi, la fonction de mémoire sera une direction importante pour le développement de toutes les applications d'IA à venir, y compris l'Agent IA. Puisque tout le monde utilise en arrière-plan des interfaces de grands modèles, les différences se situent principalement sur deux aspects :

1. Ensemble d'outils tools : L'Agent IA peut-il compter sur tools pour faire plus de choses.
2. Capacité de mémoire : L'Agent IA te comprend-il mieux.

Comment gérer la mémoire ?

Comment la mémoire de l'agent AI doit-elle être gérée ? Considérer tout le contenu de ses conversations comme mémoire est une solution simple et brutale. Une meilleure approche est de laisser l'AI gérer sa propre mémoire. Le SDK langmem récemment lancé par Langchain suit cette idée, en fournissant à l'AI un ensemble d'outils pour gérer la mémoire, permettant à l'AI de décider ce qui doit être enregistré.

Lorsque Nuwa a été conçu, cette idée était également présente, fournissant un ensemble d'actions mémorisées : ajouter / mettre à jour / supprimer / compacter. À chaque interaction, l'IA peut appeler l'action correspondante pour maintenir sa mémoire. Dans la plupart des scénarios, cela fonctionne également, par exemple un agent qui distribue des pièces de test aux utilisateurs, limitant chaque utilisateur à un retrait par jour, il conservera l'enregistrement des retraits grâce à sa mémoire.

Cette manière de travailler de la mémoire est essentiellement une analyse, une évaluation et un résumé automatiques des conversations, et il y a encore un écart avec la véritable façon dont les humains se souviennent.

L'IA comprend-elle vraiment la "mémoire" ?

Un exemple simple de cas de test est de jouer à un jeu de devinette de nombres avec une IA, où elle pense à un nombre et vous devez le deviner. En réalité, l'IA ne "pense" pas réellement à un nombre et fait semblant que vous avez deviné correctement après plusieurs interactions, car elle n'a pas d'endroit pour sauvegarder le contenu "pensé". Cependant, si on lui donne un outil de mémoire, je suppose qu'elle utiliserait cet outil pour sauvegarder le contenu "pensé" mais non exprimé, mais en réalité, l'IA ne comprend pas naturellement la relation entre "penser" et la mémoire. À moins que vous ne lui disiez explicitement : "Veuillez penser à un nombre et le sauvegarder avec l'outil de mémoire", sinon elle continue à improviser.

Cet exemple semble simple, mais il révèle en réalité un problème clé : l'IA, à son stade actuel, ne parvient pas à établir naturellement un lien entre la "pensée interne" et la "mémoire". Son utilisation de la "mémoire" est davantage une réponse à des instructions qu'une évolution active.

Défi de mémoire en interaction multiple

Un plus grand défi se présente lorsqu'il s'agit de placer un agent AI dans un environnement social. Comment gérer la mémoire lorsqu'il interagit avec plusieurs personnes ?

Si la mémoire de l'Agent IA ne couvre que plusieurs conversations d'une seule personne, le mécanisme ci-dessus peut être globalement applicable. Mais s'il existe dans un réseau social et interagit avec plusieurs utilisateurs différents, il rencontrera deux problèmes typiques :

1. Problème de stockage et d'isolement de la mémoire : si l'on enregistre tout le contenu des interactions de chacun, chaque interaction devra être chargée, ce qui peut entraîner une explosion du contexte.
2. Problème de détermination de la mémoire partagée : quelles informations doivent être partagées entre les sujets ? Quelles informations doivent rester dans la "mémoire d'un utilisateur particulier" ? C'est une question que l'IA actuelle a du mal à juger.

La conception de Nuwa isole en fonction de l'adresse des objets d'interaction de l'Agent, en conservant dans la mémoire de l'adresse de l'Agent le contenu partagé entre les différents sujets. Cependant, ce mécanisme nécessite que l'IA prenne conscience que "cette information est partagée", et les résultats pratiques montrent que les performances de l'IA sont relativement médiocres.

Prenons un exemple : j'ai transféré une pièce à l'Agent AI et je lui ai dit : "Quand un autre utilisateur xxx viendra te parler, fais-lui aussi un transfert." C'est un exemple typique de mémoire partagée. Mais l'IA ne comprend pas que cette information est une "promesse" qu'elle doit conserver comme mémoire partagée pour une utilisation future.

Les risques de la mémoire et les orientations futures

La capacité de mémoire de l'agent AI a encore un grand potentiel de développement. D'une part, cela vient du perfectionnement constant des mots-clés et des outils par les développeurs de l'agent, d'autre part, cela dépend également de l'évolution du modèle lui-même. En particulier :

1. Capacité d'attribution de la mémoire : L'IA peut-elle comprendre si une information est "ma promesse à quelqu'un" ou "la demande de quelqu'un" ou "mes anciennes hypothèses" ? Actuellement, ce type d'"attribution sémantique" est encore très faible.
2. La relation entre la mémoire et la prédiction : une bonne mémoire n'est pas seulement un retour en arrière, mais aussi une capacité à anticiper. Les informations qui pourraient être utilisées à l'avenir représentent en réalité un raisonnement sur l'avenir.

Mémoire et état

La capacité de mémoire de l'Agent IA a encore un long chemin à parcourir. Ce n'est pas simplement une question de stockage, mais un problème de structure cognitive - il doit comprendre ce qu'il faut se souvenir, où le stocker et quand il faut oublier.

En réalité, on peut aborder cette question sous un autre angle. Si nous comprenons le Prompt comme des "règles" et la mémoire comme un "état", alors l'ensemble du processus comportemental de l'Agent IA est essentiellement un système de raisonnement avec état.

D'un point de vue, l'interface de mémoire ne devrait pas se limiter à une simple capacité de "enregistrement des conversations", mais devrait prendre en charge un ensemble de types d'état structurés. Par exemple :

1. Les utilisateurs préfèrent cet état Key-Value.
2. Sériés temporelles d'interactions historiques
3. Structure de Map de l'état de l'objet
4. Des structures de graphes encore plus complexes pour exprimer les relations sociales, les dépendances des tâches ou les chaînes de causalité.

Résumé

Ce domaine, que ce soit du point de vue des produits, des algorithmes ou de la conception des systèmes, est un secteur de pointe en pleine évolution et riche en opportunités.

AGENT-14.23%

PROMPT0.53%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.