Peluang dan Tantangan Memori Agen AI



OpenAI mengumumkan penerapan penuh kemampuan memori ChatGPT ( ChatGPT dapat memberikan konteks berdasarkan memori antar percakapan.

Peluang yang dibawa oleh ingatan

Fungsi memori jelas merupakan salah satu cara penting untuk meningkatkan daya tarik aplikasi AI. Pengguna beralih dari satu platform AI ke platform lain tidak memiliki biaya peralihan yang besar, tetapi dengan adanya memori, situasinya menjadi berbeda. Misalnya, desain Nuwa saya bicarakan dengan ChatGPT, jika saya ingin membahas hal-hal terkait AI Agent, saya akan cenderung berbicara dengan ChatGPT, tanpa perlu menambah banyak konteks, ia dapat memahami apa yang bisa dilakukan oleh AI Agent di Nuwa dan bagaimana cara kerjanya.

Oleh karena itu, fungsi memori akan menjadi arah penting bagi semua aplikasi AI di masa depan, termasuk AI Agent. Mengingat semua orang mendasarkan pada antarmuka model besar, perbedaan utama terletak pada dua aspek:

1. Kumpulan alat tools: Apakah AI Agent dapat mengandalkan tools untuk melakukan lebih banyak hal.
2. Kemampuan memori: Apakah AI Agent lebih memahami Anda.

Bagaimana cara mengelola memori?

Bagaimana seharusnya memori AI Agent dikelola? Menyimpan semua konten percakapan sebagai memori adalah solusi yang sederhana dan kasar. Cara yang lebih baik adalah membiarkan AI mengelola memorinya sendiri. SDK langmem yang diluncurkan oleh Langchain beberapa waktu lalu adalah pemikiran ini, memberi AI satu set alat untuk mengelola memori, dengan AI yang memutuskan apa yang harus dicatat.

Nuwa dalam desainnya juga memiliki pemikiran ini, menyediakan serangkaian Action yang dapat diingat: add/update/remove/compact. Setiap kali berinteraksi, AI dapat memanggil Action yang sesuai untuk memelihara ingatannya. Dalam sebagian besar skenario, itu juga dapat berfungsi, seperti seorang Agen yang mendistribusikan koin uji kepada pengguna, membatasi setiap pengguna hanya dapat mengklaim sekali sehari, ia akan menyimpan catatan klaim melalui ingatannya.

Cara kerja memori ini pada dasarnya adalah jenis analisis, evaluasi, dan ringkasan otomatis dari percakapan, dan masih ada perbedaan dengan cara memori manusia yang sebenarnya.

Apakah AI benar-benar memahami "memori"?

Salah satu contoh tes yang sederhana adalah bermain permainan tebak angka dengan AI, biarkan AI memikirkan sebuah angka, lalu kamu menebaknya. Sebenarnya AI tidak benar-benar "memikirkan" sebuah angka dan kemudian membiarkan kamu menebak, tetapi menipumu dengan berpura-pura kamu menebak dengan benar setelah beberapa interaksi, karena sebenarnya tidak ada tempat untuk menyimpan konten yang "dipikirkan". Setelah diberi alat memori, saya membayangkan bahwa AI akan menggunakan alat memori untuk menyimpan konten yang "dipikirkan" tetapi tidak diungkapkan, tetapi kenyataannya AI tidak secara alami memahami hubungan antara "memikirkan" dan ingatan. Kecuali jika kamu secara eksplisit memberitahunya, "Tolong pikirkan sebuah angka dan simpan dengan alat memori", jika tidak, ia masih akan berbohong.

Contoh ini terlihat sederhana, tetapi sebenarnya mengungkapkan masalah kunci: AI pada tahap ini tidak dapat secara alami menghubungkan "pemikiran internal" dan "ingatan". Penggunaan "ingatan" oleh AI lebih merupakan respons terhadap instruksi daripada evolusi aktif.

Tantangan ingatan dalam interaksi banyak orang

Tantangan yang lebih besar muncul ketika menempatkan AI Agent dalam lingkungan sosial. Bagaimana cara mengelola ingatan ketika berinteraksi dengan banyak orang?

Jika ingatan AI Agent hanya melibatkan beberapa percakapan dari satu orang, mekanisme di atas pada dasarnya dapat digunakan. Tetapi jika ia ada dalam jaringan sosial dan berinteraksi dengan berbagai pengguna yang berbeda, akan ada dua masalah khas yang dihadapi:

1. Masalah penyimpanan dan isolasi memori: Jika semua konten interaksi orang dicatat, setiap interaksi harus dimuat, yang dapat menyebabkan ledakan konteks.
2. Masalah penentuan memori bersama: Informasi apa yang perlu dibagikan antar subjek? Apa yang seharusnya disimpan dalam "memori untuk pengguna tertentu"? Ini adalah hal yang sulit untuk dinilai oleh AI saat ini.

Desain Nuwa mengisolasi berdasarkan alamat objek interaksi Agent, menyimpan konten berbagi lintas subjek dalam memori alamat Agent itu sendiri. Namun, mekanisme ini memerlukan AI untuk menyadari "informasi ini adalah berbagi", dan hasil praktik menunjukkan bahwa kinerja AI cukup buruk.

Sebagai contoh: Saya mengirimkan sejumlah Coin ke AI Agent dan memberi tahu, "Ketika pengguna lain xxx datang untuk berkomunikasi denganmu, tolong kirimkan juga kepadanya." Ini adalah contoh yang sangat khas dari memori bersama. Namun, AI tidak memahami bahwa informasi ini adalah "janji" miliknya sendiri yang perlu disimpan sebagai memori bersama untuk digunakan di masa depan.

Risiko Memori dan Arah Masa Depan

Kemampuan memori AI Agent masih memiliki banyak ruang untuk berkembang. Di satu sisi, hal ini berasal dari pengembang Agent yang terus mengasah kata kunci dan alat, di sisi lain juga bergantung pada evolusi model itu sendiri. Khususnya:

1. Kemampuan atribusi memori: Apakah AI mampu memahami suatu informasi sebagai "komitmen saya kepada seseorang" atau "permintaan seseorang" atau "dugaan saya yang lalu"? Saat ini, jenis "atribusi semantik" ini masih sangat lemah.
2. Hubungan antara ingatan dan prediksi: Ingatan yang baik bukan hanya sekadar mengingat, tetapi juga kemampuan untuk melihat ke depan. Informasi mana yang mungkin akan digunakan di masa depan, ini sebenarnya adalah suatu penalaran tentang masa depan.

Memori dan Status

Kemampuan memori AI Agent masih memiliki jalan panjang untuk ditempuh. Ini bukan hanya masalah penyimpanan, tetapi juga masalah struktur kognitif—ia perlu memahami apa yang harus diingat, di mana harus diingat, dan kapan harus dilupakan.

Sebenarnya kita dapat melihat masalah ini dari sudut yang berbeda. Jika kita memahami Prompt sebagai "aturan", dan memori sebagai "status", maka seluruh proses perilaku AI Agent pada dasarnya adalah sistem penalaran yang memiliki status.

Dari sudut pandang ini, antarmuka memori seharusnya tidak hanya menjadi kemampuan sederhana untuk "merekam percakapan", tetapi juga harus mendukung serangkaian tipe status yang terstruktur. Misalnya:

1. Pengguna lebih suka status Key-Value seperti ini
2. Sejarah interaksi seperti deret waktu ini
3. Struktur Peta Status Objek
4. Struktur grafis yang bahkan lebih kompleks, untuk menyatakan hubungan sosial, ketergantungan tugas, atau rantai kausal.

Ringkasan

Arah ini, baik dari segi produk, algoritma, maupun desain sistem, adalah bidang perbatasan yang sedang berkembang pesat dan penuh peluang.
AGENT-12.87%
PROMPT2.36%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan

Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)