Cơ hội và thách thức của trí tuệ nhân tạo Agent nhớ



OpenAI thông báo đã triển khai đầy đủ khả năng ghi nhớ của ChatGPT ( ChatGPT có thể cung cấp ngữ cảnh dựa trên trí nhớ qua các cuộc hội thoại.

Cơ hội đến từ ký ức

Chức năng ghi nhớ chắc chắn là một cách quan trọng để tăng cường sự gắn bó của người dùng với ứng dụng AI. Việc người dùng chuyển đổi giữa các nền tảng AI ban đầu không tốn quá nhiều chi phí chuyển đổi, nhưng khi có chức năng ghi nhớ thì lại khác. Ví dụ, thiết kế của Nuwa tôi đã thảo luận với ChatGPT, nếu cần thảo luận về các vấn đề liên quan đến AI Agent, tôi sẽ thiên về việc trò chuyện với ChatGPT, không cần tôi phải cung cấp quá nhiều ngữ cảnh, nó có thể hiểu AI Agent trên Nuwa có thể làm gì và hoạt động như thế nào.

Vì vậy, chức năng ghi nhớ sẽ là một hướng quan trọng cho tất cả các ứng dụng AI trong tương lai, bao gồm cả AI Agent. Một khi mọi người đều đang sử dụng các giao diện của mô hình lớn, sự khác biệt chủ yếu nằm ở hai khía cạnh:

1. Bộ công cụ tools: AI Agent có thể dựa vào tools để làm nhiều việc hơn không.
2. Khả năng ghi nhớ: AI Agent có hiểu bạn hơn không.

Làm thế nào để quản lý trí nhớ?

Cách quản lý trí nhớ của AI Agent nên như thế nào? Việc lưu trữ tất cả nội dung cuộc trò chuyện của nó làm trí nhớ là một phương án đơn giản và thô bạo. Cách tốt hơn là để AI tự quản lý trí nhớ của mình. SDK langmem mà Langchain vừa ra mắt gần đây chính là ý tưởng này, cung cấp cho AI một bộ công cụ để quản lý trí nhớ, do AI quyết định những gì nên được ghi lại.

Khi thiết kế Nuwa, cũng có tư duy này, cung cấp một nhóm Action để ghi nhớ: thêm/cập nhật/xóa/thu gọn. Mỗi lần tương tác, AI có thể gọi Action tương ứng để duy trì trí nhớ của mình. Trong hầu hết các tình huống, nó cũng có thể hoạt động, chẳng hạn như một Agent phát token thử nghiệm cho người dùng, giới hạn mỗi người dùng chỉ nhận một lần mỗi ngày, nó sẽ lưu trữ ghi chép nhận được thông qua trí nhớ.

Cách làm việc của loại trí nhớ này về cơ bản là một phân tích, đánh giá và tổng hợp tự động các cuộc hội thoại, và vẫn có sự khác biệt so với cách ghi nhớ thực sự của con người.

AI thật sự hiểu "kí ức" chứ?

Một trường hợp thử nghiệm đơn giản là chơi trò chơi đoán số với AI, để nó nghĩ ra một số, sau đó bạn đoán. Thực tế, AI không thực sự "nghĩ" ra một số nào, mà nó chỉ giả vờ bạn đã đoán đúng sau vài lần tương tác với nó, vì nó không có nơi nào để lưu trữ nội dung "nghĩ". Và khi có công cụ ghi nhớ, tôi tưởng tượng nó sẽ sử dụng công cụ ghi nhớ để lưu trữ những nội dung "nghĩ" mà không nói ra, nhưng thực tế AI không hiểu một cách tự nhiên mối quan hệ giữa "nghĩ" và trí nhớ. Trừ khi bạn nói rõ với nó, "Xin hãy nghĩ ra một số và lưu lại bằng công cụ ghi nhớ", nếu không nó vẫn sẽ bịa đặt.

Ví dụ này trông có vẻ đơn giản, nhưng thực ra nó đã phơi bày một vấn đề then chốt: AI ở giai đoạn hiện tại không thể tự nhiên kết nối "suy nghĩ bên trong" và "kí ức". Việc sử dụng "kí ức" của nó chủ yếu là phản ứng với các chỉ thị chứ không phải là sự tiến hóa chủ động.

Thử thách trí nhớ trong tương tác nhiều người

Thử thách lớn hơn xuất hiện khi đưa AI Agent vào môi trường xã hội. Làm thế nào để quản lý trí nhớ khi nó tương tác với nhiều người?

Nếu trí tuệ nhân tạo AI Agent chỉ có trí nhớ qua nhiều cuộc hội thoại với một người, cơ chế trên có thể áp dụng. Nhưng nếu nó tồn tại trong một mạng xã hội, tương tác với nhiều người dùng khác nhau, sẽ gặp phải hai vấn đề điển hình:

1. Vấn đề lưu trữ và tách biệt ký ức: Nếu ghi lại toàn bộ nội dung tương tác của mọi người, mỗi lần tương tác đều phải tải lên, dễ dẫn đến bùng nổ ngữ cảnh.
2. Vấn đề xác định chia sẻ trí nhớ: Thông tin nào cần được chia sẻ giữa các chủ thể? Cái gì nên được giữ lại trong "trí nhớ của một người dùng"? Đây là điều mà AI hiện tại rất khó đưa ra quyết định.

Thiết kế của Nuwa được phân tách dựa trên địa chỉ của đối tượng tương tác Agent, lưu trữ nội dung chia sẻ giữa các chủ thể trong trí nhớ của địa chỉ của Agent. Nhưng cơ chế này yêu cầu AI tự nhận thức rằng "thông tin này là chia sẻ", kết quả thực tiễn cho thấy hiệu suất của AI khá kém.

Ví dụ: Tôi đã chuyển cho AI Agent một khoản Coin, nói với nó, "Khi người dùng khác xxx đến giao tiếp với bạn, hãy chuyển cho anh ta." Đây là một ví dụ điển hình về ký ức chia sẻ. Nhưng AI không hiểu rằng thông tin này là một "cam kết" của nó, cần được lưu giữ như ký ức chia sẻ để sử dụng trong tương lai.

Rủi ro của trí nhớ và hướng đi trong tương lai

Khả năng ghi nhớ của AI Agent vẫn còn nhiều không gian phát triển. Một mặt đến từ việc các nhà phát triển Agent liên tục cải thiện các từ gợi ý và công cụ, mặt khác cũng phụ thuộc vào sự tiến hóa của chính mô hình.

1. Khả năng quy thuộc của trí nhớ: AI có thể hiểu một thông tin nào đó là "cam kết của tôi đối với ai đó" hay "yêu cầu của ai đó" hay "suy đoán của tôi trong quá khứ" không? Hiện tại, loại "quy thuộc ngữ nghĩa" này vẫn còn rất yếu.
2. Mối quan hệ giữa trí nhớ và dự đoán: Trí nhớ tốt không chỉ là hồi tưởng, mà còn là một khả năng tiên đoán. Những thông tin nào có thể được sử dụng trong tương lai, thực sự đó là một dạng suy luận về tương lai.

Ký ức và trạng thái

Khả năng ghi nhớ của AI Agent còn rất nhiều điều cần cải thiện. Đó không chỉ là vấn đề lưu trữ, mà còn là vấn đề cấu trúc nhận thức - nó cần hiểu điều gì nên được ghi nhớ, ghi nhớ ở đâu, và khi nào thì nên quên.

Thực ra có thể nhìn vấn đề này từ một góc độ khác. Nếu chúng ta hiểu Prompt là "quy tắc", và hiểu trí nhớ là "trạng thái", thì toàn bộ quá trình hành vi của AI Agent về bản chất chính là một hệ thống suy diễn có trạng thái.

Từ góc độ này, giao diện bộ nhớ không chỉ nên là khả năng "ghi lại cuộc hội thoại" đơn giản, mà còn nên hỗ trợ một tập hợp các loại trạng thái có cấu trúc. Ví dụ:

1. Người dùng thích trạng thái khóa-giá trị như vậy
2. Lịch sử tương tác của chuỗi thời gian như vậy
3. Cấu trúc Map của trạng thái đối tượng
4. Cấu trúc đồ thị thậm chí phức tạp hơn, để diễn tả mối quan hệ xã hội, sự phụ thuộc vào nhiệm vụ hoặc chuỗi nguyên nhân.

Tóm tắt

Hướng đi này, bất kể là từ góc độ sản phẩm, thuật toán hay thiết kế hệ thống, đều là một lĩnh vực tiên tiến đang phát triển nhanh chóng và đầy cơ hội.
AGENT-15.94%
PROMPT1.35%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim