AIエージェントの記憶の機会と挑戦



OpenAIはChatGPTのメモリ機能の全面的な利用を発表しました(。ChatGPTは会話を超えてメモリに基づいてコンテキストを提供できます。

記憶がもたらす機会

記憶機能は間違いなくAIアプリケーションの粘着性を高める重要な方法です。ユーザーがAIプラットフォームを切り替える際には、大きな切り替えコストはありませんが、記憶機能があれば話は別です。例えば、Nuwaの設計はChatGPTとの会話から得たものです。AIエージェントに関連することを話す場合、私はChatGPTとの会話を好みます。多くの文脈を追加する必要はなく、それがNuwaのAIエージェントが何をできるのか、どのように機能するのかを理解できます。

したがって、メモリ機能は今後のすべてのAIアプリケーションの重要な方向性になるでしょう。AIエージェントも含めて。皆が背後で大規模モデルのインターフェースを呼び出している以上、主な違いは2つの側面に現れます:

1. ツールセット tools:AIエージェントはtoolsに依存してもっと多くのことをすることができますか。
2. 記憶能力:AIエージェントはあなたをより理解していますか。

記憶をどのように管理しますか?

AIエージェントのメモリはどのように管理すべきか?すべての会話内容をメモリとして扱うのは、単純明快なアプローチです。より良い方法は、AI自身にメモリを管理させることです。Langchainが最近発表したlangmem SDKは、この考え方に基づいており、AIにメモリを管理するためのツールを提供し、AIが何を記録すべきかを決定します。

Nuwaの設計もこの考え方に基づいており、一連の記憶のアクションを提供しています:add/update/remove/compact。各インタラクションの際に、AIは対応するアクションを呼び出して自分の記憶を維持できます。ほとんどのシーンでは、それもうまく機能します。例えば、ユーザーにテストコインを配布するエージェントがあり、各ユーザーは毎日1回だけ受け取れるように制限されています。そのため、受け取りの記録は記憶を通じて保存されます。

この記憶の働き方は、大まかに言うと自動的に会話を分析、評価、要約するものであり、本当の人間の記憶の仕方とはまだギャップがあります。

AIは本当に「記憶」を理解しているのか?

簡単なテストケースは、AIと数字を推測するゲームをプレイし、AIに数字を考えてもらい、それを推測することです。 実際、AIは数字について実際に「考え」て推測させるのではなく、「考えた」ことを保存する場所がないため、ユーザーを騙して数回操作し、正しく推測したふりをさせます。 記憶ツールを与えてみて、記憶ツールを使って「考えた」けど話さなかったものを記憶にとどめるのを想像したのですが、実はAIは「考える」ことと記憶の関係を自然に理解しているわけではありませんでした。 「数字を考えてメモリツールで保存してください」と明示的に言わない限り、それはまだそれをでっち上げています。

この例は簡単に見えますが、実際には重要な問題を浮き彫りにしています:AIは現段階では「内部思考」と「記憶」を自然に結びつけることができません。「記憶」の使用は、指示に応じるものであり、積極的に進化するものではありません。

複数人でのインタラクティブな記憶チャレンジ

より大きな挑戦は、AIエージェントをソーシャル環境に置くことにあります。複数の人と対話する際、どのように記憶を管理すればよいのでしょうか?

もしAIエージェントの記憶が特定の人の複数の会話を跨いでいるだけであれば、上記のメカニズムは大体適用可能です。しかし、もしそれがソーシャルネットワークの中に存在し、複数の異なるユーザーと対話する場合、2つの典型的な問題に直面します:

1. 記憶の保存と隔離の問題:もし全ての人のインタラクション内容を全て記録し、毎回インタラクションをロードする必要があると、コンテキストの爆発を引き起こしやすい。
2. 共有記憶の判定問題:どのような情報が主体間で共有される必要があるのか?そして何が「特定のユーザー」の記憶の中に留められるべきなのか?これは現在のAIが判断するのが難しいことである。

Nuwaの設計では、エージェントの相互作用対象のアドレスに基づいて隔離を行い、エージェント自身のアドレスの記憶の中に主体を超えた共有内容を保存します。しかし、このメカニズムはAIが「この情報は共有されている」と意識する必要があり、実際の結果を見ると、AIのパフォーマンスはあまり良くありません。

例えば、私はAIエージェントにコインを転送し、「別のユーザーxxxがあなたと交流する際に、ついでに彼に転送してください」と伝えました。これは非常に典型的な共有メモリです。しかし、AIはこの情報が自分自身の「約束」であることを理解せず、共有メモリとして保存する必要があることを理解していません。

記憶のリスクと未来の方向性

AIエージェントの記憶力にはまだ大きな発展の余地があります。一方ではエージェントの開発者によるプロンプトやツールの継続的な磨き上げがあり、もう一方ではモデル自体の進化に依存しています。特に:

1. 記憶の帰属能力:AIはある情報が「誰かへの私の約束」なのか「誰かの要求」なのか、それとも「私の以前の推測」なのかを理解できるのか?現在、この種の「意味的帰属」はまだ非常に弱い。
2. 記憶と予測の関係:良い記憶は振り返りだけでなく、未来を見越す能力でもあります。どの情報が将来使われる可能性があるのかというのは、実際には未来への推論の一種です。

メモリと状態

AIエージェントの記憶能力は、まだまだ長い道のりがあります。それは単なる保存の問題ではなく、認知構造の問題です——何を記憶し、どこに記録し、いつ忘れるべきかを理解する必要があります。

実際、この問題を別の角度から見ることができます。もし私たちがPromptを「ルール」と理解し、記憶を「状態」と理解するなら、AIエージェントの全体的な行動プロセスは、本質的には状態を持つ推論システムです。

この視点からすると、メモリインターフェースは単に「対話を記録する」シンプルな能力であるべきではなく、一連の構造化された状態タイプをサポートすべきです。例えば:

1. ユーザーはこのような Key-Value 状態を好みます
2. 時系列などの過去の相互作用
3. オブジェクトステータスの Map 構造
4. さらに複雑なグラフ構造を使用して、社会的関係、タスクの依存関係、または因果チェーンを表現します。

概要

この分野は、製品、アルゴリズム、またはシステム設計の観点から見ても、急速に進化しており、機会に満ちた最前線の領域です。
AGENT-16.18%
PROMPT2.25%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン