2025-04-12 08:23:49

Oportunidades e desafios da memória do Agente de IA

OpenAI anunciou a ativação total da capacidade de memória do ChatGPT ( O ChatGPT pode fornecer contexto entre sessões com base na memória.

Oportunidades trazidas pela memória

A funcionalidade de memória é, sem dúvida, uma forma importante de aumentar a adesão a aplicações de IA. Os usuários não têm um custo de mudança muito elevado ao alternar entre plataformas de IA, mas com a memória, a situação muda. Por exemplo, o design da Nuwa eu desenvolvi ao conversar com o ChatGPT; se precisar discutir algo relacionado a agentes de IA, eu sempre prefiro conversar com o ChatGPT, pois ele consegue entender rapidamente o que o agente de IA da Nuwa pode fazer e como funciona, sem que eu precise fornecer muito contexto.

Portanto, a funcionalidade de memória será uma direção importante para todas as aplicações de IA que surgirem a seguir, incluindo o AI Agent. Uma vez que todos estão a chamar as interfaces de grandes modelos, a discrepância surge principalmente em duas áreas:

1. Conjunto de ferramentas tools: O Agente de IA pode depender das tools para fazer mais coisas.
2. Capacidade de memória: O AI Agent entende-te melhor.

Como gerenciar a memória?

Como deve ser gerida a memória do Agente de IA? Armazenar todo o conteúdo da conversa como memória é uma solução simples e direta. Uma abordagem melhor é permitir que a IA gerencie sua própria memória. O SDK langmem, lançado recentemente pela Langchain, segue essa linha de pensamento, fornecendo à IA um conjunto de ferramentas para gerenciar a memória, permitindo que a IA decida o que deve ser registrado.

A Nuwa também seguiu esse raciocínio ao ser projetada, oferecendo um conjunto de Ações de memória: adicionar/atualizar/remover/compactar. A cada interação, a IA pode invocar a Ação correspondente para manter sua memória. Na maioria dos cenários, isso também funciona, como em um Agente que distribui moedas de teste para os usuários, limitando cada usuário a receber uma vez por dia; ele irá usar a memória para manter o registro das distribuições.

Este modo de trabalho da memória é, em grande medida, uma análise, avaliação e resumo automáticos das conversas, e ainda há uma lacuna em relação ao verdadeiro modo de memória humana.

A IA realmente entende "memória"?

Um caso de teste simples é jogar um jogo de adivinhação de números com a IA, onde ela pensa em um número e você tenta adivinhá-lo. Na verdade, a IA não "pensa" em um número de verdade e, após algumas interações, finge que você acertou, porque não tem lugar para guardar o que "pensou". Quando lhe é dado uma ferramenta de memória, eu imagino que ela usará essa ferramenta para guardar o que "pensou", mas não disse, mas na verdade a IA não entende naturalmente a relação entre "pensar" e memória. A menos que você lhe diga explicitamente: "por favor, pense em um número e guarde-o usando a ferramenta de memória", ela ainda estará apenas inventando.

Este exemplo pode parecer simples, mas na verdade expõe um problema crucial: a IA, nesta fase atual, não consegue conectar naturalmente o "pensar internamente" e a "memória". O seu uso da "memória" é mais como uma resposta a comandos do que uma evolução ativa.

Desafio de memória em interação múltipla

Um desafio maior surge ao colocar o Agente AI em um ambiente social. Como gerenciar a memória quando ele interage com várias pessoas?

Se a memória do agente de IA for apenas entre várias conversas de uma única pessoa, o mecanismo acima pode ser amplamente aplicável. Mas se ele existir em uma rede social e interagir com vários usuários diferentes, encontrará dois problemas típicos:

1. Problemas de armazenamento e isolamento da memória: se registrarmos todo o conteúdo da interação de todas as pessoas, cada interação terá que ser carregada, o que pode levar a uma explosão de contexto.
2. Problema de determinação da memória compartilhada: Que tipo de informação precisa ser compartilhada entre diferentes entidades? E o que deve ser mantido na memória "de um determinado usuário"? Esta é uma questão que a IA atual tem dificuldade em julgar.

No design da Nuwa, a interação é isolada com base no endereço do objeto de interação do Agente, mantendo conteúdos compartilhados entre entidades na memória do próprio endereço do Agente. No entanto, esse mecanismo requer que a IA reconheça por si mesma que "essa informação é compartilhada"; na prática, os resultados mostram que o desempenho da IA é bastante insatisfatório.

Por exemplo: eu transferi uma quantia de Coin para o AI Agent e disse-lhe: "quando outro usuário xxx vier falar contigo, transfira-lhe também." Este é um exemplo típico de memória compartilhada. Mas a IA não entende que esta informação é uma "promessa" dela, que precisa ser salva como memória compartilhada para uso futuro.

Os riscos da memória e direções futuras

A capacidade de memória do Agente de IA ainda tem muito espaço para desenvolvimento. Por um lado, isso vem do constante aprimoramento das palavras-chave e ferramentas pelos desenvolvedores do Agente, e por outro lado, depende da evolução do próprio modelo. Especialmente:

1. A capacidade de atribuição da memória: será que a IA consegue entender se uma determinada informação é "uma promessa que fiz a alguém", "um pedido de alguém" ou "uma suposição que tive no passado"? Atualmente, esse tipo de "atribuição semântica" ainda é muito fraco.
2. A relação entre memória e previsão: uma boa memória não é apenas uma recordação, mas também uma capacidade de antecipação. Quais informações podem ser utilizadas no futuro, isso na verdade é uma forma de raciocínio sobre o futuro.

Memória e estado

A capacidade de memória do Agente de IA ainda tem um longo caminho a percorrer. Não se trata apenas de um problema de armazenamento, mas sim de uma questão de estrutura cognitiva - ele precisa entender o que deve lembrar, onde deve armazenar e quando deve esquecer.

Na verdade, podemos olhar para essa questão de uma perspectiva diferente. Se entendermos Prompt como "regras" e memória como "estado", então todo o processo de comportamento do AI Agent é, em essência, um sistema de raciocínio com estado.

A partir desta perspectiva, a interface de memória não deve ser apenas uma capacidade simples de "registar conversas", mas deve suportar um conjunto de tipos de estado estruturados. Por exemplo:

1. Os usuários preferem esse estado de Key-Value
2. Interações históricas dessa série temporal
3. Estrutura Map do estado do objeto
4. Estruturas de gráfico ainda mais complexas para expressar relações sociais, dependências de tarefas ou cadeias causais.

Resumo

Esta direção, seja do ponto de vista de produtos, algoritmos ou design de sistemas, é um campo de vanguarda em rápida evolução e cheio de oportunidades.

AGENT-15.76%

PROMPT1.07%

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.