OpenAI оголосила про повне впровадження функції пам'яті ChatGPT ( ChatGPT може надавати контекст на основі пам'яті між сесіями.
Можливості, які приносить пам'ять
Функція пам'яті, безсумнівно, є важливим способом підвищення залучення до AI-додатків. Користувачі, які переходять з однієї платформи AI на іншу, зазвичай не стикаються з великими витратами на перехід, але наявність пам'яті змінює цю ситуацію. Наприклад, дизайн Nuwa я обговорював з ChatGPT, і якщо мені потрібно поговорити про речі, що стосуються AI Agent, я завжди схиляюся до спілкування з ChatGPT, оскільки йому не потрібно багато контексту, щоб зрозуміти, що може робити AI Agent на Nuwa і як це працює.
Отже, функція пам'яті стане важливим напрямком для всіх майбутніх застосувань ШІ, включаючи AI Agent. Оскільки зазвичай усі користуються інтерфейсами великих моделей, різниця в основному полягає в двох аспектах:
1. Інструментальний набір tools: Чи може AI Agent покладатися на tools, щоб робити більше справ. 2. Пам'ять: Чи краще AI Agent розуміє вас.
Як керувати пам'яттю?
Як слід управляти пам'яттю AI агента? Зберігати весь вміст його розмов в пам'яті - це просте і грубе рішення. Кращий підхід - дозволити AI самостійно управляти своєю пам'яттю. Langchain нещодавно випустила SDK langmem, що реалізує цю ідею, надаючи AI набір інструментів для управління пам'яттю, дозволяючи AI вирішувати, що слід записувати.
При проектуванні Nuwa також використовувався цей підхід, було надано набір дій для пам'яті: додати/оновити/видалити/компактний. При кожній взаємодії AI може викликати відповідну дію для підтримки своєї пам'яті. У більшості випадків він також може працювати, наприклад, агент, який розподіляє тестові монети користувачам, обмежуючи кожного користувача на отримання лише один раз на день, він буде зберігати записи про отримання за допомогою пам'яті.
Цей спосіб роботи пам'яті в основному є автоматичним аналізом, оцінкою та підсумуванням розмов, і все ще є різниця з реальною пам'яттю людини.
Чи справді ШІ розуміє "пам'ять"?
Простий тест полягає в тому, щоб зіграти в гру на вгадування чисел зі штучним інтелектом, попросити його придумати число, а потім ви його вгадаєте. Насправді, штучний інтелект насправді не «думає» про число і не дозволяє вам його вгадати, а обманом змушує вас взаємодіяти з ним кілька разів і вдавати, що ви вгадали правильно, тому що у нього немає місця для зберігання того, що він «думає». Після того, як я дав йому інструмент пам'яті, я уявив, що він буде використовувати інструмент пам'яті для зберігання того, що було «думано», але не вимовлено, але насправді ШІ природно не розумів взаємозв'язку між «мисленням» і пам'яттю. Якщо ви прямо не скажете йому: «Придумайте число і збережіть його за допомогою інструменту пам'яті», він все одно вигадає.
Цей приклад виглядає простим, але насправді виявляє одну ключову проблему: ШІ на поточному етапі не може природно пов'язати "внутрішнє мислення" та "пам'ять". Його використання "пам'яті" більше є відповіддю на команди, ніж активною еволюцією.
Виклик пам'яті в умовах багаторазової взаємодії
Більші виклики виникають, коли AI Agent поміщається в соціальне середовище. Як управляти пам'яттю, коли він взаємодіє з кількома людьми?
Якщо пам'ять AI Agent обмежується кількома розмовами однієї людини, то вказаний механізм в цілому може бути використаний. Але якщо він існує в соціальній мережі та взаємодіє з кількома різними користувачами, він зіткнеться з двома типовими проблемами:
1. Проблема зберігання та ізоляції пам'яті: якщо записати всі взаємодії кожної людини, і кожен раз завантажувати їх під час взаємодії, це може призвести до вибуху контексту. 2. Проблема визначення спільної пам'яті: яку інформацію потрібно ділити між суб'єктами? А що слід зберігати в пам'яті "для певного користувача"? Це те, що сучасному ШІ дуже важко оцінити.
У дизайні Nuwa ізоляція здійснюється за адресою об'єкта взаємодії агента, збереженням спільного контенту в пам'яті самого агента. Але цей механізм вимагає від ШІ усвідомлення того, що "ця інформація є спільною", і результати практики показують, що ШІ демонструє досить низькі результати.
Наприклад: я перевів Coin AI Agent і сказав йому: "коли інший користувач xxx буде з тобою спілкуватися, переведи йому, будь ласка." Це типовий приклад спільної пам'яті. Але AI не розуміє, що ця інформація є його "обіцянкою", яку потрібно зберігати як спільну пам'ять для майбутнього використання.
Ризики пам'яті та майбутні напрямки
Пам'ять AI Agent має великий потенціал для розвитку. З одного боку, це пов'язано з постійним вдосконаленням підказок і інструментів розробниками Agent, з іншого боку, це також залежить від еволюції самого моделі. Особливо:
1. Здатність до атрибуції пам'яті: чи може ШІ зрозуміти, чи є певна інформація "моїм зобов'язанням перед кимось", чи "проханням когось", чи "моїм колишнім припущенням"? Наразі цей вид "семантичної атрибуції" все ще дуже слабкий. 2. Взаємозв'язок між пам'яттю та прогнозуванням: хороша пам'ять - це не лише згадування, а й здатність передбачати. Яка інформація може бути використана в майбутньому, насправді є формою міркування про майбутнє.
Пам'ять та стан
Пам'ять AI Agent має ще довгий шлях. Це не просто проблема зберігання, а проблема когнітивної структури — йому потрібно зрозуміти, що потрібно запам'ятати, куди це зберігати і коли забути.
Насправді можна подивитися на цю проблему з іншого боку. Якщо ми зрозуміємо Prompt як "правила", а пам'ять як "стан", тоді весь процес дій AI Agent по суті є системою міркувань з станом.
Починаючи з цієї точки зору, інтерфейс пам'яті не повинен бути простою здатністю «записувати розмови», а повинен підтримувати набір структурованих типів станів. Наприклад:
1. Користувачі віддають перевагу такому стану Key-Value 2. Історичні взаємодії такого часового ряду 3. Структура Map стану об'єкта 4. Навіть більш складні графові структури, щоб виразити соціальні зв'язки, залежності завдань або причинно-наслідкові ланцюги
підсумок
Цей напрямок, незалежно від того, чи дивитися на нього з точки зору продукту, алгоритму чи системного дизайну, є швидко еволюційною, сповненою можливостей передовою областю.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Можливості та виклики пам'яті AI-агента
OpenAI оголосила про повне впровадження функції пам'яті ChatGPT ( ChatGPT може надавати контекст на основі пам'яті між сесіями.
Можливості, які приносить пам'ять
Функція пам'яті, безсумнівно, є важливим способом підвищення залучення до AI-додатків. Користувачі, які переходять з однієї платформи AI на іншу, зазвичай не стикаються з великими витратами на перехід, але наявність пам'яті змінює цю ситуацію. Наприклад, дизайн Nuwa я обговорював з ChatGPT, і якщо мені потрібно поговорити про речі, що стосуються AI Agent, я завжди схиляюся до спілкування з ChatGPT, оскільки йому не потрібно багато контексту, щоб зрозуміти, що може робити AI Agent на Nuwa і як це працює.
Отже, функція пам'яті стане важливим напрямком для всіх майбутніх застосувань ШІ, включаючи AI Agent. Оскільки зазвичай усі користуються інтерфейсами великих моделей, різниця в основному полягає в двох аспектах:
1. Інструментальний набір tools: Чи може AI Agent покладатися на tools, щоб робити більше справ.
2. Пам'ять: Чи краще AI Agent розуміє вас.
Як керувати пам'яттю?
Як слід управляти пам'яттю AI агента? Зберігати весь вміст його розмов в пам'яті - це просте і грубе рішення. Кращий підхід - дозволити AI самостійно управляти своєю пам'яттю. Langchain нещодавно випустила SDK langmem, що реалізує цю ідею, надаючи AI набір інструментів для управління пам'яттю, дозволяючи AI вирішувати, що слід записувати.
При проектуванні Nuwa також використовувався цей підхід, було надано набір дій для пам'яті: додати/оновити/видалити/компактний. При кожній взаємодії AI може викликати відповідну дію для підтримки своєї пам'яті. У більшості випадків він також може працювати, наприклад, агент, який розподіляє тестові монети користувачам, обмежуючи кожного користувача на отримання лише один раз на день, він буде зберігати записи про отримання за допомогою пам'яті.
Цей спосіб роботи пам'яті в основному є автоматичним аналізом, оцінкою та підсумуванням розмов, і все ще є різниця з реальною пам'яттю людини.
Чи справді ШІ розуміє "пам'ять"?
Простий тест полягає в тому, щоб зіграти в гру на вгадування чисел зі штучним інтелектом, попросити його придумати число, а потім ви його вгадаєте. Насправді, штучний інтелект насправді не «думає» про число і не дозволяє вам його вгадати, а обманом змушує вас взаємодіяти з ним кілька разів і вдавати, що ви вгадали правильно, тому що у нього немає місця для зберігання того, що він «думає». Після того, як я дав йому інструмент пам'яті, я уявив, що він буде використовувати інструмент пам'яті для зберігання того, що було «думано», але не вимовлено, але насправді ШІ природно не розумів взаємозв'язку між «мисленням» і пам'яттю. Якщо ви прямо не скажете йому: «Придумайте число і збережіть його за допомогою інструменту пам'яті», він все одно вигадає.
Цей приклад виглядає простим, але насправді виявляє одну ключову проблему: ШІ на поточному етапі не може природно пов'язати "внутрішнє мислення" та "пам'ять". Його використання "пам'яті" більше є відповіддю на команди, ніж активною еволюцією.
Виклик пам'яті в умовах багаторазової взаємодії
Більші виклики виникають, коли AI Agent поміщається в соціальне середовище. Як управляти пам'яттю, коли він взаємодіє з кількома людьми?
Якщо пам'ять AI Agent обмежується кількома розмовами однієї людини, то вказаний механізм в цілому може бути використаний. Але якщо він існує в соціальній мережі та взаємодіє з кількома різними користувачами, він зіткнеться з двома типовими проблемами:
1. Проблема зберігання та ізоляції пам'яті: якщо записати всі взаємодії кожної людини, і кожен раз завантажувати їх під час взаємодії, це може призвести до вибуху контексту.
2. Проблема визначення спільної пам'яті: яку інформацію потрібно ділити між суб'єктами? А що слід зберігати в пам'яті "для певного користувача"? Це те, що сучасному ШІ дуже важко оцінити.
У дизайні Nuwa ізоляція здійснюється за адресою об'єкта взаємодії агента, збереженням спільного контенту в пам'яті самого агента. Але цей механізм вимагає від ШІ усвідомлення того, що "ця інформація є спільною", і результати практики показують, що ШІ демонструє досить низькі результати.
Наприклад: я перевів Coin AI Agent і сказав йому: "коли інший користувач xxx буде з тобою спілкуватися, переведи йому, будь ласка." Це типовий приклад спільної пам'яті. Але AI не розуміє, що ця інформація є його "обіцянкою", яку потрібно зберігати як спільну пам'ять для майбутнього використання.
Ризики пам'яті та майбутні напрямки
Пам'ять AI Agent має великий потенціал для розвитку. З одного боку, це пов'язано з постійним вдосконаленням підказок і інструментів розробниками Agent, з іншого боку, це також залежить від еволюції самого моделі. Особливо:
1. Здатність до атрибуції пам'яті: чи може ШІ зрозуміти, чи є певна інформація "моїм зобов'язанням перед кимось", чи "проханням когось", чи "моїм колишнім припущенням"? Наразі цей вид "семантичної атрибуції" все ще дуже слабкий.
2. Взаємозв'язок між пам'яттю та прогнозуванням: хороша пам'ять - це не лише згадування, а й здатність передбачати. Яка інформація може бути використана в майбутньому, насправді є формою міркування про майбутнє.
Пам'ять та стан
Пам'ять AI Agent має ще довгий шлях. Це не просто проблема зберігання, а проблема когнітивної структури — йому потрібно зрозуміти, що потрібно запам'ятати, куди це зберігати і коли забути.
Насправді можна подивитися на цю проблему з іншого боку. Якщо ми зрозуміємо Prompt як "правила", а пам'ять як "стан", тоді весь процес дій AI Agent по суті є системою міркувань з станом.
Починаючи з цієї точки зору, інтерфейс пам'яті не повинен бути простою здатністю «записувати розмови», а повинен підтримувати набір структурованих типів станів. Наприклад:
1. Користувачі віддають перевагу такому стану Key-Value
2. Історичні взаємодії такого часового ряду
3. Структура Map стану об'єкта
4. Навіть більш складні графові структури, щоб виразити соціальні зв'язки, залежності завдань або причинно-наслідкові ланцюги
підсумок
Цей напрямок, незалежно від того, чи дивитися на нього з точки зору продукту, алгоритму чи системного дизайну, є швидко еволюційною, сповненою можливостей передовою областю.