Hai con đường của AI: Cạnh tranh cổng vào đám mây hay ứng dụng gốc phía người dùng?
Gần đây tôi thấy Alibaba phát hành ứng dụng Tongyi Qianwen, chính thức tham gia vào cuộc chiến ứng dụng C端. Sam Altman trước đây cũng đã nhiều lần bày tỏ sự ám ảnh của mình với "ứng dụng siêu" và liên tục đưa vào ChatGPT nhiều tính năng xã hội khác nhau.
Trong câu chuyện của các công ty lớn, ứng dụng AI trong tương lai dường như sẽ là phiên bản sao của các ứng dụng siêu Internet hiện tại - trở thành cổng vào duy nhất, tích hợp nhiều chức năng trong một.
Nhưng tương lai của các ứng dụng AI, liệu có thật sự chỉ gói gọn trong con đường này không? Liệu có khả năng nào khác không?
Nếu chúng ta chuyển sự chú ý từ các ứng dụng AI Chat tổng quát sang những công cụ lập trình như Cursor, Windsurf, và tích hợp các công cụ MCP khác nhau, có thể chúng ta sẽ thấy được phần nào đó, cảm nhận được nhịp đập hoàn toàn khác biệt của ứng dụng gốc AI (AI Native App).
Đường hào bị mất và cảm giác bất an của toàn bộ nhân viên
Hệ sinh thái ứng dụng AI hiện tại, nếu dùng một sinh vật làm phép ẩn dụ, có thể được phân thành ba vai trò:
* Não (Nhà cung cấp mô hình LLM): Cung cấp suy luận, quyết định và kiến thức cơ bản. * Cơ thể (bên cung cấp khách hàng): Cung cấp giao diện người dùng (UI/GUI) và môi trường ngữ cảnh (Context) cũng như trí nhớ. * Tay chân (nhà cung cấp dịch vụ công cụ): Cung cấp khả năng cụ thể, chẳng hạn như tìm kiếm, lịch, đặt vé, thanh toán, v.v. công cụ MCP.
Trong trạng thái lý tưởng, khách hàng (cơ thể) kết nối não bộ và tay chân lại với nhau, giúp người dùng giải quyết vấn đề.
Trong thời đại Internet, rào cản của ứng dụng đến từ hai thứ: giao diện (UI) và giao diện lập trình ứng dụng (API). Người dùng chỉ có thể hoàn thành dịch vụ cụ thể thông qua giao diện cụ thể. Nhưng khi nhu cầu có thể được biểu đạt bằng ngôn ngữ tự nhiên, Prompt trở thành giao diện mới, và rào cản API cũng trở nên lỏng lẻo. "Ranh giới" giữa các ứng dụng bắt đầu trở nên không ổn định.
Điều này dẫn đến việc mỗi vai trò trong hệ sinh thái đều thiếu cảm giác an toàn một cách nghiêm trọng:
* Các nhà cung cấp LLM sợ trở thành "đường ống": Nếu chỉ làm API, đối với người dùng là không có cảm giác gì. Hôm nay người dùng sử dụng Claude 4.5, ngày mai đổi sang GPT 5.1 hoặc GLM-4.6, các nhà cung cấp mô hình có thể bị thay thế bởi sức mạnh tính toán rẻ hơn bất cứ lúc nào. Để không bị "đường ống hóa", họ phải xuống làm khách hàng (thân thể), giữ người dùng trong ứng dụng của mình. * Khách hàng lo sợ bị "bó tay": tức là nỗi lo "đóng vỏ". Nếu bộ não cốt lõi nằm trong tay người khác, có thể bị ngừng cung cấp hoặc tăng giá bất cứ lúc nào. Do đó, những người làm ứng dụng cũng bắt đầu tự rèn luyện mô hình, cố gắng sở hữu bộ não. * Các công cụ lo ngại về "sự vô hình": Ví dụ, nếu nền tảng giới thiệu đời sống địa phương trở thành một công cụ MCP, người dùng sẽ trực tiếp trò chuyện với AI để tìm kiếm thông tin, thì nền tảng này sẽ hoàn toàn trở thành một nhà cung cấp dịch vụ API cơ sở, giá trị giao diện và doanh thu quảng cáo ban đầu của nó sẽ sụp đổ hoàn toàn. Do đó, họ cũng không cam lòng, cố gắng nhồi nhét chức năng AI vào ứng dụng của mình, cố gắng giữ chân người dùng.
Kết quả của sự "lo lắng toàn bộ" này chính là những hỗn loạn hiện tại: mọi người đều đang làm full stack, đều đang cố gắng kiểm soát hoàn toàn não bộ, cơ thể, tay chân.
Đường dẫn một: Leviathan đám mây (cổng siêu cấp)
Để giải quyết nỗi lo này, các công ty lớn đã đưa ra một giải pháp rất phù hợp với cách nghĩ quen thuộc của họ: tái tạo câu chuyện về các ứng dụng siêu Internet.
Theo quan điểm của nhà sản xuất mô hình, việc lắp ráp não và tay chân tốt nhất không nên xảy ra trên máy khách, vì như vậy quyền kiểm soát nằm trong tay người dùng. Họ hy vọng máy khách trở lại chế độ "khách mỏng" (Thin Client) - chỉ giữ lại khả năng nhận lệnh bằng giọng nói hoặc văn bản.
Trong cấu trúc này:
Não não trên đám mây: Quyết định và suy luận hoàn toàn do nhà cung cấp kiểm soát. Tay chân trên đám mây: Kết nối backend của các công ty lớn thông qua Function Calling hoặc Plugin. Ký ức trên đám mây: Tất cả dữ liệu, sở thích và lịch sử của người dùng đều được tải lên.
Điều này cho phép sao chép hoàn hảo logic của ứng dụng siêu và thậm chí còn đáng sợ hơn cả ứng dụng siêu trên internet. Bởi vì trong thời đại internet, mặc dù ứng dụng siêu chiếm lĩnh lưu lượng truy cập, nhưng dữ liệu giữa các dịch vụ vẫn còn bị phân tách. Còn trong "ứng dụng siêu AI", nhà sản xuất không chỉ nắm giữ cổng vào mà còn nắm vững tất cả logic quyết định ở giữa thông qua mô hình.
Đây là một "Leviathan đám mây" hoàn hảo, hiệu suất cực cao, nhưng người dùng trong hệ thống này không có bất kỳ quyền riêng tư và quyền lựa chọn nào, chỉ là đối tượng được nuôi dưỡng bởi thuật toán.
Đường dẫn thứ hai: Ứng dụng gốc AI - Tích hợp phía người dùng
Nhưng cũng có một khả năng khác, dấu hiệu này đã rất rõ ràng trong lĩnh vực lập trình.
Hãy xem trình biên tập AI (IDE) hiện tại: thân thiện với người dùng, mã nguồn (Codebase) ở cục bộ, tất cả logic kinh doanh và ngữ cảnh đều ở cục bộ.
Não não não là có thể được cắm vào: Bạn có thể cấu hình các mô hình khác nhau trong IDE, ngay cả khi IDE không hỗ trợ cấu hình, chỉ cần thêm một lớp giao diện chuyển đổi cũng có thể giải quyết. Tay chân được tiêu chuẩn hóa: Sự xuất hiện của các giao thức như MCP đã biến cơ sở dữ liệu, Git, và các công cụ terminal thành những khối Lego tiêu chuẩn.
Trong kiến trúc này, ứng dụng không phải là bức tường bao quanh người dùng do các công ty lớn nuôi dưỡng, mà là "khung xương ngoài" mặc trên người dùng.
Trong chế độ này, sự tích hợp (Integration) diễn ra ở phía khách hàng. Ứng dụng tổ chức dữ liệu cục bộ của người dùng (Context) một cách hợp lý, theo nhu cầu gọi "bộ não" trên đám mây hoặc cục bộ để suy nghĩ, sau đó chỉ huy các "tay chân" chuẩn hóa thực hiện.
Dữ liệu và logic cốt lõi được giữ lại bên phía người dùng. Ít nhất, dữ liệu của bạn sẽ không nằm hết trong tay một nhà cung cấp; ít nhất, khi một mô hình trở nên ngu ngốc, bạn có thể thay thế bằng một bộ não thông minh hơn.
Tất nhiên, con đường này không phải là một con đường dễ dàng, thách thức lớn nhất là sự thiếu hụt cơ sở hạ tầng: nếu không có các ứng dụng lớn hoàn thành việc xác thực danh tính (Auth) đồng nhất trên đám mây, việc kết nối các dịch vụ công cụ về danh tính, thanh toán và xây dựng mô hình kinh doanh bền vững trên client là một thách thức lớn, và hiện tại vẫn chưa thấy được con đường rõ ràng.
Nhưng tôi tin rằng, ID phi tập trung trong lĩnh vực Crypto (DID) và mạng lưới thanh toán có thể đóng vai trò quan trọng ở đây, cung cấp nền tảng tin cậy và thanh toán cho sự hợp tác AI phi tập trung này. Chúng ta sẽ thảo luận chi tiết về chủ đề này trong bài viết tiếp theo.
Cuộc chơi trong tương lai
Hiện nay, sự tiến bộ công nghệ đang ở một ngã rẽ: Một mặt, các công ty lớn cố gắng "tập trung" mọi khả năng về phía API của họ, xây dựng hệ sinh thái khép kín; Mặt khác, các nhà phát triển sử dụng công nghệ MCP, Local LLM, v.v., cố gắng xây dựng một hệ sinh thái mở "tách biệt".
Tương lai phụ thuộc vào cuộc chơi giữa người dùng, nhà sản xuất và nhà phát triển hiện tại. Mỗi sự lựa chọn của mọi người thực ra đang bỏ phiếu cho hai tương lai này.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Hai con đường của AI: Cạnh tranh cổng vào đám mây hay ứng dụng gốc phía người dùng?
Gần đây tôi thấy Alibaba phát hành ứng dụng Tongyi Qianwen, chính thức tham gia vào cuộc chiến ứng dụng C端. Sam Altman trước đây cũng đã nhiều lần bày tỏ sự ám ảnh của mình với "ứng dụng siêu" và liên tục đưa vào ChatGPT nhiều tính năng xã hội khác nhau.
Trong câu chuyện của các công ty lớn, ứng dụng AI trong tương lai dường như sẽ là phiên bản sao của các ứng dụng siêu Internet hiện tại - trở thành cổng vào duy nhất, tích hợp nhiều chức năng trong một.
Nhưng tương lai của các ứng dụng AI, liệu có thật sự chỉ gói gọn trong con đường này không? Liệu có khả năng nào khác không?
Nếu chúng ta chuyển sự chú ý từ các ứng dụng AI Chat tổng quát sang những công cụ lập trình như Cursor, Windsurf, và tích hợp các công cụ MCP khác nhau, có thể chúng ta sẽ thấy được phần nào đó, cảm nhận được nhịp đập hoàn toàn khác biệt của ứng dụng gốc AI (AI Native App).
Đường hào bị mất và cảm giác bất an của toàn bộ nhân viên
Hệ sinh thái ứng dụng AI hiện tại, nếu dùng một sinh vật làm phép ẩn dụ, có thể được phân thành ba vai trò:
* Não (Nhà cung cấp mô hình LLM): Cung cấp suy luận, quyết định và kiến thức cơ bản.
* Cơ thể (bên cung cấp khách hàng): Cung cấp giao diện người dùng (UI/GUI) và môi trường ngữ cảnh (Context) cũng như trí nhớ.
* Tay chân (nhà cung cấp dịch vụ công cụ): Cung cấp khả năng cụ thể, chẳng hạn như tìm kiếm, lịch, đặt vé, thanh toán, v.v. công cụ MCP.
Trong trạng thái lý tưởng, khách hàng (cơ thể) kết nối não bộ và tay chân lại với nhau, giúp người dùng giải quyết vấn đề.
Trong thời đại Internet, rào cản của ứng dụng đến từ hai thứ: giao diện (UI) và giao diện lập trình ứng dụng (API). Người dùng chỉ có thể hoàn thành dịch vụ cụ thể thông qua giao diện cụ thể. Nhưng khi nhu cầu có thể được biểu đạt bằng ngôn ngữ tự nhiên, Prompt trở thành giao diện mới, và rào cản API cũng trở nên lỏng lẻo. "Ranh giới" giữa các ứng dụng bắt đầu trở nên không ổn định.
Điều này dẫn đến việc mỗi vai trò trong hệ sinh thái đều thiếu cảm giác an toàn một cách nghiêm trọng:
* Các nhà cung cấp LLM sợ trở thành "đường ống": Nếu chỉ làm API, đối với người dùng là không có cảm giác gì. Hôm nay người dùng sử dụng Claude 4.5, ngày mai đổi sang GPT 5.1 hoặc GLM-4.6, các nhà cung cấp mô hình có thể bị thay thế bởi sức mạnh tính toán rẻ hơn bất cứ lúc nào. Để không bị "đường ống hóa", họ phải xuống làm khách hàng (thân thể), giữ người dùng trong ứng dụng của mình.
* Khách hàng lo sợ bị "bó tay": tức là nỗi lo "đóng vỏ". Nếu bộ não cốt lõi nằm trong tay người khác, có thể bị ngừng cung cấp hoặc tăng giá bất cứ lúc nào. Do đó, những người làm ứng dụng cũng bắt đầu tự rèn luyện mô hình, cố gắng sở hữu bộ não.
* Các công cụ lo ngại về "sự vô hình": Ví dụ, nếu nền tảng giới thiệu đời sống địa phương trở thành một công cụ MCP, người dùng sẽ trực tiếp trò chuyện với AI để tìm kiếm thông tin, thì nền tảng này sẽ hoàn toàn trở thành một nhà cung cấp dịch vụ API cơ sở, giá trị giao diện và doanh thu quảng cáo ban đầu của nó sẽ sụp đổ hoàn toàn. Do đó, họ cũng không cam lòng, cố gắng nhồi nhét chức năng AI vào ứng dụng của mình, cố gắng giữ chân người dùng.
Kết quả của sự "lo lắng toàn bộ" này chính là những hỗn loạn hiện tại: mọi người đều đang làm full stack, đều đang cố gắng kiểm soát hoàn toàn não bộ, cơ thể, tay chân.
Đường dẫn một: Leviathan đám mây (cổng siêu cấp)
Để giải quyết nỗi lo này, các công ty lớn đã đưa ra một giải pháp rất phù hợp với cách nghĩ quen thuộc của họ: tái tạo câu chuyện về các ứng dụng siêu Internet.
Theo quan điểm của nhà sản xuất mô hình, việc lắp ráp não và tay chân tốt nhất không nên xảy ra trên máy khách, vì như vậy quyền kiểm soát nằm trong tay người dùng. Họ hy vọng máy khách trở lại chế độ "khách mỏng" (Thin Client) - chỉ giữ lại khả năng nhận lệnh bằng giọng nói hoặc văn bản.
Trong cấu trúc này:
Não não trên đám mây: Quyết định và suy luận hoàn toàn do nhà cung cấp kiểm soát.
Tay chân trên đám mây: Kết nối backend của các công ty lớn thông qua Function Calling hoặc Plugin.
Ký ức trên đám mây: Tất cả dữ liệu, sở thích và lịch sử của người dùng đều được tải lên.
Điều này cho phép sao chép hoàn hảo logic của ứng dụng siêu và thậm chí còn đáng sợ hơn cả ứng dụng siêu trên internet. Bởi vì trong thời đại internet, mặc dù ứng dụng siêu chiếm lĩnh lưu lượng truy cập, nhưng dữ liệu giữa các dịch vụ vẫn còn bị phân tách. Còn trong "ứng dụng siêu AI", nhà sản xuất không chỉ nắm giữ cổng vào mà còn nắm vững tất cả logic quyết định ở giữa thông qua mô hình.
Đây là một "Leviathan đám mây" hoàn hảo, hiệu suất cực cao, nhưng người dùng trong hệ thống này không có bất kỳ quyền riêng tư và quyền lựa chọn nào, chỉ là đối tượng được nuôi dưỡng bởi thuật toán.
Đường dẫn thứ hai: Ứng dụng gốc AI - Tích hợp phía người dùng
Nhưng cũng có một khả năng khác, dấu hiệu này đã rất rõ ràng trong lĩnh vực lập trình.
Hãy xem trình biên tập AI (IDE) hiện tại: thân thiện với người dùng, mã nguồn (Codebase) ở cục bộ, tất cả logic kinh doanh và ngữ cảnh đều ở cục bộ.
Não não não là có thể được cắm vào: Bạn có thể cấu hình các mô hình khác nhau trong IDE, ngay cả khi IDE không hỗ trợ cấu hình, chỉ cần thêm một lớp giao diện chuyển đổi cũng có thể giải quyết.
Tay chân được tiêu chuẩn hóa: Sự xuất hiện của các giao thức như MCP đã biến cơ sở dữ liệu, Git, và các công cụ terminal thành những khối Lego tiêu chuẩn.
Trong kiến trúc này, ứng dụng không phải là bức tường bao quanh người dùng do các công ty lớn nuôi dưỡng, mà là "khung xương ngoài" mặc trên người dùng.
Trong chế độ này, sự tích hợp (Integration) diễn ra ở phía khách hàng. Ứng dụng tổ chức dữ liệu cục bộ của người dùng (Context) một cách hợp lý, theo nhu cầu gọi "bộ não" trên đám mây hoặc cục bộ để suy nghĩ, sau đó chỉ huy các "tay chân" chuẩn hóa thực hiện.
Dữ liệu và logic cốt lõi được giữ lại bên phía người dùng. Ít nhất, dữ liệu của bạn sẽ không nằm hết trong tay một nhà cung cấp; ít nhất, khi một mô hình trở nên ngu ngốc, bạn có thể thay thế bằng một bộ não thông minh hơn.
Tất nhiên, con đường này không phải là một con đường dễ dàng, thách thức lớn nhất là sự thiếu hụt cơ sở hạ tầng: nếu không có các ứng dụng lớn hoàn thành việc xác thực danh tính (Auth) đồng nhất trên đám mây, việc kết nối các dịch vụ công cụ về danh tính, thanh toán và xây dựng mô hình kinh doanh bền vững trên client là một thách thức lớn, và hiện tại vẫn chưa thấy được con đường rõ ràng.
Nhưng tôi tin rằng, ID phi tập trung trong lĩnh vực Crypto (DID) và mạng lưới thanh toán có thể đóng vai trò quan trọng ở đây, cung cấp nền tảng tin cậy và thanh toán cho sự hợp tác AI phi tập trung này. Chúng ta sẽ thảo luận chi tiết về chủ đề này trong bài viết tiếp theo.
Cuộc chơi trong tương lai
Hiện nay, sự tiến bộ công nghệ đang ở một ngã rẽ: Một mặt, các công ty lớn cố gắng "tập trung" mọi khả năng về phía API của họ, xây dựng hệ sinh thái khép kín; Mặt khác, các nhà phát triển sử dụng công nghệ MCP, Local LLM, v.v., cố gắng xây dựng một hệ sinh thái mở "tách biệt".
Tương lai phụ thuộc vào cuộc chơi giữa người dùng, nhà sản xuất và nhà phát triển hiện tại. Mỗi sự lựa chọn của mọi người thực ra đang bỏ phiếu cho hai tương lai này.