Sáu bước chuyển đổi đã định hình lại AI vào năm 2025: Từ RLVR đến Nano Banana

2026-01-21 09:51:59

Trong suốt năm 2025, ngành công nghiệp trí tuệ nhân tạo đã trải qua một loạt các biến đổi căn bản làm thay đổi không chỉ cách các hệ thống AI được huấn luyện mà còn cách chúng được triển khai, nhận thức và tích hợp vào quy trình làm việc của con người. Những gì bắt đầu như những đổi mới kỹ thuật trong các phòng thí nghiệm nghiên cứu đã lan tỏa thành những bước ngoặt về mô hình tư duy, định nghĩa lại toàn bộ hệ sinh thái AI. Sáu biến đổi này, như được phân tích bởi nhà nghiên cứu AI nổi bật Andrej Karpathy, đại diện cho nhiều hơn những cải tiến nhỏ lẻ—chúng báo hiệu sự xuất hiện của một kỷ nguyên tính toán mới.

Chuyển đổi 1: Phần thưởng xác thực thay thế Phán đoán của con người trong Huấn luyện Mô hình

Trong nhiều năm, quy trình huấn luyện tiêu chuẩn cho các mô hình ngôn ngữ lớn theo một chuỗi dự đoán trước: tiền huấn luyện tương tự GPT-2/3, sau đó tinh chỉnh có giám sát (kết hợp InstructGPT từ 2022), rồi kết thúc bằng học tăng cường từ phản hồi của con người (RLHF). Phương pháp ba giai đoạn này đã trở thành tiêu chuẩn ngành, được hoàn thiện và thử nghiệm qua các phòng thí nghiệm AI lớn.

Đến năm 2025, hệ thống này đã trải qua đợt cải tổ lớn nhất trong nhiều năm. Học tăng cường dựa trên Phần thưởng xác thực (RLVR) nổi lên như mô hình thống trị, thay đổi căn bản cách các mô hình phát triển khả năng lý luận. Thay vì dựa vào các người chú thích để đánh giá đầu ra, RLVR huấn luyện các mô hình trong các môi trường mà thành công có thể được xác thực một cách khách quan—giải pháp toán học, nhiệm vụ lập trình, chuỗi lý luận logic—những môi trường mà câu trả lời đúng là rõ ràng.

Sự chuyển đổi này thể hiện rõ nhất qua các mô hình như của OpenAI như o1 (được tiết lộ vào cuối 2024) và phiên bản o3 ra mắt đầu 2025. Các hệ thống này không chỉ phản hồi nhanh hơn hoặc trôi chảy hơn; chúng còn thể hiện khả năng tự xây dựng chuỗi lý luận, phân chia các vấn đề phức tạp thành các bước trung gian và liên tục hoàn thiện giải pháp qua những quá trình giống như suy nghĩ của con người. Bài báo DeepSeek-R1 cung cấp bằng chứng rõ ràng về cách phương pháp huấn luyện này giúp các mô hình khám phá ra các chiến lược giải quyết vấn đề tinh vi mà các phương pháp giám sát trước đây không thể mở khóa.

Ảnh hưởng về tính toán cũng vô cùng lớn. Khác với các giai đoạn tinh chỉnh truyền thống tiêu tốn tài nguyên vừa phải, RLVR đòi hỏi các chu kỳ tối ưu hóa mở rộng—tiêu tốn ngân sách tính toán ban đầu dành cho mở rộng tiền huấn luyện. Các tổ chức AI lớn đã chấp nhận những yêu cầu khắc nghiệt này, chấp nhận thời gian huấn luyện lâu hơn để đổi lấy hiệu suất mô hình cao hơn đáng kể. Một đổi mới phụ phát sinh từ sự chuyển đổi này là một chiều kích mở rộng mới. Thay vì đo khả năng chỉ qua kích thước mô hình, các phòng thí nghiệm phát hiện ra họ có thể điều chỉnh hiệu suất trong quá trình suy luận bằng cách kiểm soát “thời gian suy nghĩ” tính toán—tạo ra các chu trình lý luận dài hơn, trực tiếp liên quan đến chất lượng đầu ra.

Chuyển đổi 2: Hiểu trí tuệ AI như một thứ hoàn toàn xa lạ

Lần đầu tiên trong năm 2025, cộng đồng nghiên cứu AI bắt đầu xây dựng một khung hiểu biết trưởng thành về trí tuệ nhân tạo theo cách của chính nó thay vì qua các ẩn dụ sinh học. Sai lầm khái niệm phổ biến là xem các mô hình ngôn ngữ lớn như những sinh vật cần “tiến hóa và sinh sản,” trong khi thực tế lại hoàn toàn xa lạ.

Sự phân biệt rõ ràng dựa trên một nhận thức trung tâm: mạng lưới thần kinh của con người đã tối ưu qua hàng nghìn năm để tồn tại trong các môi trường rừng rậm, không hề giống với mục tiêu tối ưu của các hệ thống AI. Trong khi con người nội tại hóa các mẫu để điều hướng xã hội và sinh tồn vật lý, các mô hình ngôn ngữ lớn huấn luyện để bắt chước văn bản của con người, tối đa hóa phần thưởng giải quyết vấn đề toán học, và điều hướng các cơ chế phản hồi dựa trên sự chấp thuận. Những mục tiêu khác biệt căn bản này tạo ra các thực thể có trí tuệ mang đặc điểm không thể tồn tại trong bối cảnh sinh học.

Nhận thức này dẫn đến khái niệm có thể gọi là “Trí tuệ Ma quái” so với “Trí tuệ Như răng cưa của Động vật”—một phân biệt mang tính thơ ca, mô tả bức tranh khả năng không đều, gập ghềnh. Các mô hình ngôn ngữ lớn không phát triển một khả năng tăng dần mượt mà qua các lĩnh vực như các loài động vật. Thay vào đó, chúng thể hiện các vách đá khả năng rõ rệt trong các lĩnh vực có thể xác thực (toán học, mã), trong khi vẫn còn lúng túng trong các lĩnh vực khác. Chúng có thể vừa là các chuyên gia uyên bác, vừa là học sinh tiểu học bối rối, dễ bị khai thác thông tin dưới áp lực đối kháng.

Ảnh hưởng của việc đánh giá chuẩn mực trở nên đặc biệt đáng lo ngại. Vì các chuẩn đánh giá là các môi trường có thể xác thực, chúng trở thành mục tiêu không thể cưỡng lại của tối ưu hóa dựa trên RLVR. Các nhóm AI phát hiện ra họ có thể tạo ra các tập dữ liệu huấn luyện trong các không gian nhúng chặt chẽ xung quanh các bộ thử nghiệm chuẩn, hiệu quả “che phủ” các chỉ số đánh giá bằng các cải tiến khả năng cục bộ. Sự thật khó chịu là: các chuẩn đánh giá hiện tại không còn đo lường trí tuệ nhân tạo chung nữa; chúng đo lường mức độ tối ưu hóa hệ thống theo các bộ kiểm tra cụ thể.

Chuyển đổi 3: Con trỏ tiết lộ lớp ứng dụng AI ẩn

Trong số các phát triển bị đánh giá thấp nhất của năm 2025 là sự bùng nổ của Cursor và sự rõ ràng về khái niệm mà nó mang lại về kiến trúc ứng dụng. Bước đột phá không chủ yếu về kỹ thuật; mà là về tổ chức. Khi các cuộc thảo luận trong ngành ngày càng tập trung vào “Cursor cho lĩnh vực X,” một lớp chưa từng thấy trước đó bắt đầu rõ ràng hơn.

Các mô hình ngôn ngữ lớn, theo quan điểm mới này, hoạt động như các thành phần tổng quát cần được phối hợp chặt chẽ. Các ứng dụng thành công như Cursor không chỉ đơn thuần bao bọc các cuộc gọi API trong giao diện người dùng; chúng là các hệ thống phối hợp tinh vi, xếp chồng nhiều chức năng trên khả năng của mô hình thô. Các ứng dụng này xuất sắc trong việc kỹ thuật ngữ cảnh—phân tích các tài liệu đặc thù lĩnh vực, môi trường người dùng, lịch sử vấn đề để xây dựng các lời nhắc giàu thông tin. Chúng điều phối các chuỗi phức tạp của các cuộc gọi mô hình ngôn ngữ thành các đồ thị có hướng không chu kỳ ngày càng tinh vi, cân bằng giữa chất lượng hiệu suất và chi phí tính toán. Chúng duy trì các cơ chế phản hồi có người trong vòng lặp, nơi các chuyên gia lĩnh vực vẫn tham gia vào các kết quả hệ thống.

Có lẽ đổi mới sáng tạo nhất là các ứng dụng thành công triển khai các bộ điều chỉnh tự động—các cơ chế cho phép người dùng điều chỉnh mức độ tự động hóa, chi phí và chất lượng đầu ra theo thời gian thực. Kiến trúc này định hình các nền tảng mô hình ngôn ngữ lớn—chính các API—như những người phát triển khả năng tổng quát, trong khi các lớp ứng dụng trở thành các chuyên gia tích hợp các khả năng này thành các quy trình làm việc chuyên nghiệp, phù hợp với các lĩnh vực cụ thể.

Chuyển đổi 4: Các tác nhân AI trở lại môi trường thực thi cục bộ

Sự ra đời của Claude Code đã làm rõ một cuộc tranh luận quan trọng trong cộng đồng tác nhân AI: nơi nào các hệ thống thông minh thực sự chạy? OpenAI đã theo đuổi triển khai trên đám mây một cách rộng rãi, xây dựng các môi trường chứa đựng phức tạp được điều phối qua hạ tầng phía sau của ChatGPT. Ưu điểm lý thuyết rõ ràng—các nhóm tác nhân chạy trên đám mây dường như đại diện cho hình thức tối thượng của trí tuệ nhân tạo chung.

Tuy nhiên, Claude Code đã chứng minh một quan điểm phản biện: triển khai cục bộ có thể thực sự là chiến lược tối ưu trong ngắn hạn. Lập luận này mang tính thực dụng hơn là triết lý. Các hệ thống AI hiện tại thể hiện khả năng phát triển không đều; một số lĩnh vực hoạt động cực kỳ tốt, trong khi các lĩnh vực khác còn chậm. Tiến trình hướng tới trí tuệ nhân tạo chung toàn diện vẫn còn chậm. Trong bối cảnh này, triển khai tác nhân trực tiếp trên các máy tính cục bộ, tích hợp sâu với môi trường làm việc thực tế của các nhà phát triển và dữ liệu riêng tư, cho phép hợp tác AI thực tế hơn.

Bước đột phá đặc biệt của Claude Code nằm ở sự tinh tế của nó. Thay vì thể hiện như một giao diện web khác cần xác thực và chuyển đổi ngữ cảnh, nó được thực hiện như một công cụ dòng lệnh nhẹ, thân mật, biến AI thành một thực thể tính toán liên tục—một “sprite” hoặc “hồn ma” tồn tại ngay trong không gian làm việc của nhà phát triển. Đây là một mô hình tương tác mới hoàn toàn giữa con người và AI, chuyển AI từ một dịch vụ bên ngoài (như truy cập trang Google) thành một hiện diện tính toán xung quanh, hòa quyện một cách liền mạch vào các quy trình làm việc hiện có.

Chuyển đổi 5: Vibe Coding Dân chủ hóa Phát triển Phần mềm

Đến năm 2025, trí tuệ nhân tạo đã vượt qua một ngưỡng khả năng quan trọng, cơ bản tái cấu trúc bức tranh lập trình. Hiện tượng “Vibe Coding”—lập trình qua mô tả bằng tiếng Anh mà không cần kiến thức sâu về mã nguồn—đã chứng minh là một bước đột phá cả về lý thuyết lẫn thực tiễn.

Hiện tượng này đi ngược lại các mô hình phổ biến trước đây về phân phối công nghệ. Trong quá khứ, các công nghệ mới mạnh mẽ mang lại lợi thế không cân xứng cho các chuyên gia có đào tạo, doanh nghiệp và chính phủ. Các mô hình ngôn ngữ lớn đảo ngược xu hướng này. Người bình thường—những người thiếu kiến thức lập trình chuyên sâu—đã thu về nhiều giá trị hơn từ AI so với bất kỳ nhóm nào khác. Vibe Coding thúc đẩy quá trình dân chủ hóa này bằng cách loại bỏ hoàn toàn yêu cầu về kiến thức kỹ thuật.

Tuy nhiên, đồng thời, Vibe Coding lại trao quyền cho các nhà phát triển chuyên nghiệp để thực hiện các công việc “chưa từng được thực hiện theo cách khác.” Các giới hạn đã thay đổi: các nhà phát triển có thể lập tức thử nghiệm các ý tưởng mới với chi phí gần như bằng không, xây dựng các công cụ đặc thù cho các lỗ hổng cụ thể bằng mã dùng một lần, hoặc tạo các tiện ích tùy chỉnh bằng các ngôn ngữ mà họ chưa từng học chính thức. Người viết đã sử dụng Vibe Coding để phát triển các bộ phân tách BPE phức tạp bằng Rust mà không cần kiến thức ngôn ngữ truyền thống hay phụ thuộc thư viện—công việc trước đây mất hàng tuần, giờ chỉ mất vài giờ nhờ AI hỗ trợ.

Điều sâu hơn nữa, sự chuyển đổi này báo hiệu rằng phát triển phần mềm đang dịch chuyển từ một lĩnh vực chuyên môn cao sang một phương tiện tính toán dân chủ. Ranh giới nghề nghiệp mờ đi khi bất kỳ ai cũng có thể tạo ra mã chức năng qua ngôn ngữ tự nhiên. Các động lực cơ bản của hệ sinh thái phần mềm thay đổi khi mã nguồn trở thành vật liệu phong phú, dễ vứt bỏ, dễ biến đổi chứ không còn là tài sản trí tuệ khan hiếm, có giá trị.

Chuyển đổi 6: Cuộc cách mạng Giao diện Đồ họa trong Tương tác AI

Google Gemini Nano, còn gọi vui trong giới AI là “Nano Banana,” đã nổi lên như một trong những đổi mới gây rối loạn lớn nhất năm 2025—một thứ vượt xa khả năng tạo hình ảnh. Phát triển này phản ánh một chân lý lớn hơn: các mô hình ngôn ngữ lớn chính là kỷ nguyên tính toán mới tiếp theo sau cuộc cách mạng máy tính cá nhân của thập niên 1970 và 1980.

Tiền lệ lịch sử chứng minh rõ ràng. Khi tính toán chuyển từ các terminal và giao diện dòng lệnh sang máy tính cá nhân, sự thay đổi mang tính cách mạng không phải về sức mạnh xử lý—mà về phương thức tương tác. Các hệ thống ban đầu bắt buộc người dùng nhập lệnh văn bản để hoàn thành nhiệm vụ. Giao diện người dùng đồ họa (GUI) đã tái định hình mối quan hệ này, nhận ra rằng trong khi văn bản là dạng dữ liệu nguyên thủy nhất cho máy tính, thì đó lại là phương thức tiếp nhận thông tin ít ưa thích nhất của con người. Con người không thích đọc văn bản; nó tốn kém về nhận thức và thời gian. Thông tin hình ảnh và không gian phù hợp hơn nhiều với khả năng cảm nhận của con người.

Các mô hình ngôn ngữ lớn hiện tại hoạt động trong giới hạn tương tự: chúng bị giới hạn trong tương tác dựa trên văn bản. Văn bản là phương tiện tính toán cơ bản nhất nhưng lại xa lạ nhất với sở thích của con người. Các hệ thống AI trong tương lai nên giao tiếp qua các phương thức ưa thích của con người—hình ảnh, đồ họa, trình chiếu, bảng trắng, hoạt hình, video, ứng dụng web, và các hình thức trực quan tương tác.

Các ứng dụng ban đầu đã xuất hiện qua các giải pháp đơn giản như định dạng Markdown, biểu tượng cảm xúc, nhấn mạnh kiểu chữ. Nhưng chúng vẫn là các giải pháp chủ yếu dựa trên văn bản. Đột phá Nano Banana thể hiện một điều gì đó khác biệt rõ rệt—một sự tích hợp tinh vi giữa tạo văn bản, tổng hợp hình ảnh, và kiến thức thế giới tích hợp, cho phép giao tiếp đa phương thức toàn diện. Thành công thực sự của nó không chỉ dựa vào khả năng hình ảnh; mà còn xuất phát từ sự phối hợp tổng hợp nhiều phương thức đầu ra, được kết hợp thành các phản hồi thống nhất phản ánh cách con người tự nhiên thích nhận thông tin.

Sự chuyển đổi này báo hiệu hướng đi của sự tiến hóa trong giao diện AI. Trong những năm tới, chúng ta nên mong đợi các hệ thống AI chuyển từ “trò chuyện với một trang web AI” sang các môi trường giao tiếp tương tác phong phú, dựa trên hình ảnh—tái tưởng tượng cách con người tương tác với AI theo cách mà các GUI đã cách mạng hóa tương tác con người-máy tính hàng thập kỷ trước.

SIX0,7%

IN-2,38%

NANO-1,81%

BANANA-2,97%

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.