2025-04-12 08:23:49

Возможности и вызовы памяти AI-агента

OpenAI объявила о полном запуске функции памяти ChatGPT ( ChatGPT может предоставлять контекст на основе памяти между сессиями.

Возможности, которые приносит память

Функция памяти, безусловно, является важным способом повышения вовлеченности в AI-приложения. Пользователи обычно не испытывают больших затрат на переключение между AI-платформами, но с появлением памяти все меняется. Например, я разработал дизайн Nuwa в беседе с ChatGPT, и когда речь заходит о чем-то, связанном с AI-агентами, я всегда склонен общаться с ChatGPT, так как ему не нужно много контекста, чтобы понять, что может делать AI-агент Nuwa и как он работает.

Таким образом, функция памяти станет важным направлением для всех будущих приложений ИИ, включая ИИ-агентов. Поскольку все они обращаются к интерфейсу больших моделей, различия в основном проявляются в двух аспектах:

1. Набор инструментов tools: Может ли AI Agent полагаться на tools для выполнения большего количества задач.
2. Способности к памяти: понимает ли AI Agent вас лучше.

Как управлять памятью?

Как следует управлять памятью AI-агента? Хранение всех его разговоров в качестве памяти является простым и грубым решением. Лучший способ - позволить AI управлять своей памятью. Недавно выпущенный Langchain langmem SDK именно это и предлагает: предоставить AI набор инструментов для управления памятью, позволяя ему решать, что следует записать.

При проектировании Nuwa также использовался этот подход, предоставляя набор действий для запоминания: добавление/обновление/удаление/сжатие. При каждом взаимодействии ИИ может вызывать соответствующее действие для поддержания своей памяти. В большинстве случаев это также работает, например, агент, который выдает тестовые монеты пользователям, ограничивая каждого пользователя возможностью получать их только один раз в день, будет использовать память для сохранения записей о получении.

Этот способ работы памяти в основном представляет собой автоматический анализ, оценку и обобщение разговоров, и он все же отличается от настоящего человеческого способа запоминания.

ИИ действительно понимает "память"?

Простой тестовый случай — это игра в угадывание чисел с ИИ, позволяя ему задумать число, а затем вам нужно угадать. На самом деле ИИ не "задумывает" число, а просто обманывает вас, притворяясь, что вы угадали, после нескольких взаимодействий, потому что он не хранит "задуманное". Если дать ему инструмент памяти, я предположил, что он будет использовать его для сохранения "задуманного", но не говорит об этом, но на самом деле ИИ не понимает естественным образом связь между "задумать" и памятью. Если вы не скажете ему явно: "Пожалуйста, задумайте число и сохраните его с помощью инструмента памяти", он все равно будет врать.

Этот пример кажется простым, но на самом деле он выявляет ключевую проблему: ИИ на текущем этапе не может естественно соединить "внутренние размышления" и "память". Его использование "памяти" больше связано с ответом на команды, чем с активной эволюцией.

Вызов памяти в многопользовательском взаимодействии

Более крупные вызовы возникают при размещении AI-агента в социальной среде. Как управлять памятью, когда он взаимодействует с несколькими людьми?

Если память AI-агента ограничена несколькими сессиями одного человека, описанный выше механизм в целом применим. Но если он существует в социальной сети и взаимодействует с несколькими разными пользователями, он столкнется с двумя типичными проблемами:

1. Проблема хранения и изоляции памяти: если записывать все взаимодействия людей, каждое взаимодействие будет загружаться, что может привести к взрыву контекста.
2. Проблема определения совместной памяти: какая информация должна быть разделена между субъектами? А какая должна оставаться в "памяти о конкретном пользователе"? Это то, что современному ИИ очень трудно определить.

В дизайне Nuwa изоляция осуществляется по адресу объекта взаимодействия Agent, сохраняя общий контент между субъектами в памяти адреса самого Agent. Однако этот механизм требует, чтобы ИИ сам осознавал, что "эта информация является общей"; на практике, похоже, что ИИ показывает плохие результаты.

Пример: я перевел монету AI Agent и сказал ему: "Когда другой пользователь xxx будет с тобой общаться, передай ему это." Это典型ное共享记忆. Но AI не понимает, что эта информация является его "обещанием", которое нужно сохранить как共享记忆 для будущего использования.

Риски памяти и направления будущего

У AI Agent есть большой потенциал для развития памяти. С одной стороны, это связано с постоянным совершенствованием подсказок и инструментов разработчиками Agent, с другой стороны, это зависит от эволюции самой модели. Особенно:

1. Способность атрибуции памяти: может ли ИИ понимать, является ли информация «моим обязательством перед кем-то», «запросом от кого-то» или «моим прежним предположением»? В настоящее время такая «семантическая атрибуция» всё ещё слаба.
2. Связь между памятью и прогнозированием: хорошая память – это не только воспоминания, но и способность предвидеть. Какая информация может быть использована в будущем, на самом деле, это форма рассуждения о будущем.

Память и состояние

У AI-агента есть еще долгий путь в развитии его памяти. Это не просто вопрос хранения, а вопрос когнитивной структуры — ему нужно понять, что следует запомнить, куда это сохранить и когда следует забыть.

На самом деле, можно посмотреть на эту проблему с другой стороны. Если мы понимаем Prompt как «правило», а память как «состояние», то весь процесс поведения AI Agent по своей сути является системой вывода с состоянием.

С этой точки зрения интерфейс памяти не должен быть просто простой способностью «записывать диалоги», а должен поддерживать набор структурированных типов состояния. Например:

1. Пользователи предпочитают такое состояние Key-Value
2. Исторические взаимодействия такие временные ряды
3. Структура Map состояния объекта
4. Даже более сложные графовые структуры для выражения социальных связей, зависимостей задач или причинно-следственных цепочек.

резюме

Это направление является быстро развивающейся и полной возможностей передовой областью, как с точки зрения продукта, алгоритмов, так и проектирования систем.

AGENT-15.99%

PROMPT0.47%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .