Nguồn: CryptoNewsNet
Tiêu đề gốc: Hình ảnh Z của Trung Quốc lật đổ Flux trở thành Vua của Nghệ thuật AI—Và Máy tính khoai tây của bạn có thể chạy nó
Liên kết gốc:
Tổng quan
Mô hình tạo ảnh Z-Image Turbo của Alibaba's Tongyi Lab, với 6 tỷ tham số, đã ra mắt vào tuần trước với một lời hứa đơn giản: chất lượng hàng đầu trên phần cứng mà bạn thực sự sở hữu.
Lời hứa đó đang gặp khó khăn. Chỉ sau vài ngày phát hành, các nhà phát triển đã chế tạo ra LoRAs—các phiên bản tùy chỉnh đã được tinh chỉnh—với tốc độ đã vượt qua cả Flux2, một người kế nhiệm được quảng bá rầm rộ của mô hình Flux cực kỳ phổ biến.
Mẹo hay của Z-Image là hiệu quả. Trong khi các đối thủ như Flux2 yêu cầu tối thiểu 24GB VRAM ( và lên đến 90GB cho mô hình đầy đủ ), Z-Image hoạt động trên các thiết lập định lượng với chỉ 6GB.
Đó là lãnh thổ của RTX 2060—về cơ bản là phần cứng từ năm 2019. Tùy thuộc vào độ phân giải, người dùng có thể tạo ra hình ảnh chỉ trong vòng 30 giây.
Đối với những người đam mê và các nhà sáng tạo độc lập, đây là một cánh cửa trước đây đã bị khóa.
Tiếp Nhận Cộng Đồng
Cộng đồng nghệ thuật AI đã nhanh chóng ca ngợi mô hình.
“Đây là những gì SD3 đáng lẽ phải là,” người dùng Saruhey viết trên CivitAI, kho lưu trữ công cụ nghệ thuật AI mã nguồn mở lớn nhất thế giới. “Sự tuân thủ prompt thì khá tinh xảo… một mô hình có thể xử lý văn bản ngay lập tức là thay đổi cuộc chơi. Cái này mạnh mẽ tương đương, nếu không muốn nói là tốt hơn, so với Flux là ma thuật đen tự nó. Trung Quốc đang đi trước rất xa trong trò chơi AI.”
Z-Image Turbo đã có sẵn trên Civitai từ thứ Năm tuần trước và đã nhận được hơn 1.200 đánh giá tích cực. Để có bối cảnh, Flux2—ra mắt vài ngày trước Z-Image—có 157.
Mô hình hoàn toàn không bị kiểm duyệt từ đầu. Người nổi tiếng, nhân vật hư cấu và vâng, nội dung khiêu dâm đều có mặt.
Tính đến hôm nay, có khoảng 200 tài nguyên (finetunes, LoRAs, workflows) cho mô hình chỉ trên Civitai, nhiều trong số đó là NSFW.
Trên Reddit, người dùng Regular-Forever5876 đã thử thách giới hạn của mô hình với các prompt về máu me và cảm thấy kinh ngạc: “Trời ơi!!! Cái này hiểu máu me AF! Nó tạo ra một cách hoàn hảo,” họ viết.
Kiến trúc Kỹ thuật
Bí mật kỹ thuật đằng sau Z-Image Turbo là kiến trúc S3-DiT của nó - một bộ biến hình một luồng xử lý dữ liệu văn bản và hình ảnh cùng lúc từ đầu, thay vì gộp chúng lại sau này. Sự tích hợp chặt chẽ này, kết hợp với các kỹ thuật chưng cất mạnh mẽ, cho phép mô hình đạt các tiêu chuẩn chất lượng thường yêu cầu các mô hình lớn gấp năm lần.
Kiểm tra mô hình
Tốc độ: SDXL Tốc độ, Chất lượng thế hệ tiếp theo
Tại chín bước, Z-Image Turbo tạo ra hình ảnh với tốc độ gần như tương đương với SDXL, với 30 bước thông thường—một mô hình được phát hành vào năm 2023.
Sự khác biệt là chất lượng đầu ra của Z-Image tương đương hoặc tốt hơn Flux. Trên một chiếc laptop với GPU RTX 2060 có 6GB VRAM, một hình ảnh mất 34 giây.
Flux2, so với đó, mất khoảng mười lần thời gian để tạo ra một hình ảnh tương đương.
Chủ nghĩa hiện thực: Tiêu chuẩn mới
Z-Image Turbo là mô hình mã nguồn mở chân thực nhất hiện có cho phần cứng tiêu dùng. Nó vượt trội hơn hoàn toàn so với Flux2, và mô hình tinh chế cơ bản vượt trội so với các tinh chỉnh độ chân thực dành riêng của Flux.
Kết cấu da và tóc trông chi tiết và tự nhiên. “Cằm Flux” nổi tiếng và “da nhựa” hầu như đã biến mất. Tỷ lệ cơ thể luôn vững chắc, và các LoRAs cải thiện tính thực tế còn hơn nữa đã được lưu hành.
Tạo Văn Bản: Cuối Cùng, Những Từ Có Hiệu Quả
Đây là nơi Z-Image thực sự tỏa sáng. Đây là mô hình mã nguồn mở tốt nhất cho việc tạo văn bản trong hình ảnh, hoạt động ngang bằng với Nanobanana và Seedream của Google—các mô hình thiết lập tiêu chuẩn hiện tại.
Đối với người nói tiếng Quan Thoại, Z-Image là sự lựa chọn rõ ràng. Nó hiểu tiếng Trung một cách bản địa và hiển thị các ký tự một cách chính xác.
Mẹo chuyên nghiệp: Một số người dùng đã báo cáo rằng việc nhắc nhở bằng tiếng Trung thực sự giúp mô hình sản xuất đầu ra tốt hơn, và các nhà phát triển thậm chí đã phát hành một “công cụ cải thiện nhắc nhở” bằng tiếng Trung.
Văn bản tiếng Anh cũng mạnh mẽ như nhau, với một ngoại lệ: những từ dài không phổ biến như “decentralized” có thể khiến nó gặp khó khăn - một hạn chế mà Nanobanana cũng gặp phải.
Nhận thức không gian và tuân thủ kịp thời: Xuất sắc
Sự tuân thủ hướng dẫn của Z-Image thật xuất sắc. Nó hiểu phong cách, mối quan hệ không gian, vị trí và tỷ lệ với độ chính xác đáng kể.
Ví dụ, hãy lấy câu lệnh này:
Một con chó đội mũ đỏ đứng trên một chiếc tivi hiển thị dòng chữ “Decrypt là trang web truyền thông về tiền điện tử và trí tuệ nhân tạo tốt nhất thế giới” trên màn hình. Bên trái là một người phụ nữ tóc vàng trong bộ vest công sở cầm một đồng xu; bên phải là một con robot đứng trên một chiếc hộp cứu thương, và một hình chóp xanh đứng phía sau chiếc hộp. Cảnh vật tổng thể rất siêu thực. Một con mèo đang đứng lộn ngược trên một quả bóng đá trắng, bên cạnh con chó. Một phi hành gia từ NASA cầm một biển báo ghi chữ “Emerge” và được đặt bên cạnh con robot.
Như đã thấy, nó chỉ có một lỗi chính tả, có lẽ vì sự pha trộn ngôn ngữ, nhưng ngoài điều đó ra, tất cả các yếu tố đều được thể hiện chính xác.
Chảy prompt là tối thiểu, và các cảnh phức tạp với nhiều nhân vật vẫn giữ được sự mạch lạc. Nó vượt qua Flux về chỉ số này và giữ vững vị thế của mình trước Nanobanana.
Điều Gì Sẽ Xảy Ra Tiếp Theo?
Alibaba dự kiến phát hành thêm hai biến thể nữa: Z-Image-Base để tinh chỉnh, và Z-Image-Edit cho các chỉnh sửa dựa trên hướng dẫn. Nếu chúng ra mắt với độ hoàn thiện tương tự như Turbo, thì cảnh quan mã nguồn mở sắp có sự thay đổi mạnh mẽ.
Hiện tại, phán quyết của cộng đồng rất rõ ràng: Z-Image đã chiếm lấy vương miện của Flux, giống như cách mà Flux từng lật đổ Stable Diffusion.
Người chiến thắng thực sự sẽ là người thu hút được nhiều nhà phát triển nhất để xây dựng trên nền tảng đó.
Nhưng nếu bạn hỏi chúng tôi, thì Z-Image là mô hình mã nguồn mở hướng về gia đình yêu thích của chúng tôi ngay bây giờ.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Hình ảnh Z của Trung Quốc soán ngôi Flux như vua của nghệ thuật AI—Và máy tính khoai tây của bạn có thể chạy nó
Nguồn: CryptoNewsNet Tiêu đề gốc: Hình ảnh Z của Trung Quốc lật đổ Flux trở thành Vua của Nghệ thuật AI—Và Máy tính khoai tây của bạn có thể chạy nó Liên kết gốc:
Tổng quan
Mô hình tạo ảnh Z-Image Turbo của Alibaba's Tongyi Lab, với 6 tỷ tham số, đã ra mắt vào tuần trước với một lời hứa đơn giản: chất lượng hàng đầu trên phần cứng mà bạn thực sự sở hữu.
Lời hứa đó đang gặp khó khăn. Chỉ sau vài ngày phát hành, các nhà phát triển đã chế tạo ra LoRAs—các phiên bản tùy chỉnh đã được tinh chỉnh—với tốc độ đã vượt qua cả Flux2, một người kế nhiệm được quảng bá rầm rộ của mô hình Flux cực kỳ phổ biến.
Mẹo hay của Z-Image là hiệu quả. Trong khi các đối thủ như Flux2 yêu cầu tối thiểu 24GB VRAM ( và lên đến 90GB cho mô hình đầy đủ ), Z-Image hoạt động trên các thiết lập định lượng với chỉ 6GB.
Đó là lãnh thổ của RTX 2060—về cơ bản là phần cứng từ năm 2019. Tùy thuộc vào độ phân giải, người dùng có thể tạo ra hình ảnh chỉ trong vòng 30 giây.
Đối với những người đam mê và các nhà sáng tạo độc lập, đây là một cánh cửa trước đây đã bị khóa.
Tiếp Nhận Cộng Đồng
Cộng đồng nghệ thuật AI đã nhanh chóng ca ngợi mô hình.
“Đây là những gì SD3 đáng lẽ phải là,” người dùng Saruhey viết trên CivitAI, kho lưu trữ công cụ nghệ thuật AI mã nguồn mở lớn nhất thế giới. “Sự tuân thủ prompt thì khá tinh xảo… một mô hình có thể xử lý văn bản ngay lập tức là thay đổi cuộc chơi. Cái này mạnh mẽ tương đương, nếu không muốn nói là tốt hơn, so với Flux là ma thuật đen tự nó. Trung Quốc đang đi trước rất xa trong trò chơi AI.”
Z-Image Turbo đã có sẵn trên Civitai từ thứ Năm tuần trước và đã nhận được hơn 1.200 đánh giá tích cực. Để có bối cảnh, Flux2—ra mắt vài ngày trước Z-Image—có 157.
Mô hình hoàn toàn không bị kiểm duyệt từ đầu. Người nổi tiếng, nhân vật hư cấu và vâng, nội dung khiêu dâm đều có mặt.
Tính đến hôm nay, có khoảng 200 tài nguyên (finetunes, LoRAs, workflows) cho mô hình chỉ trên Civitai, nhiều trong số đó là NSFW.
Trên Reddit, người dùng Regular-Forever5876 đã thử thách giới hạn của mô hình với các prompt về máu me và cảm thấy kinh ngạc: “Trời ơi!!! Cái này hiểu máu me AF! Nó tạo ra một cách hoàn hảo,” họ viết.
Kiến trúc Kỹ thuật
Bí mật kỹ thuật đằng sau Z-Image Turbo là kiến trúc S3-DiT của nó - một bộ biến hình một luồng xử lý dữ liệu văn bản và hình ảnh cùng lúc từ đầu, thay vì gộp chúng lại sau này. Sự tích hợp chặt chẽ này, kết hợp với các kỹ thuật chưng cất mạnh mẽ, cho phép mô hình đạt các tiêu chuẩn chất lượng thường yêu cầu các mô hình lớn gấp năm lần.
Kiểm tra mô hình
Tốc độ: SDXL Tốc độ, Chất lượng thế hệ tiếp theo
Tại chín bước, Z-Image Turbo tạo ra hình ảnh với tốc độ gần như tương đương với SDXL, với 30 bước thông thường—một mô hình được phát hành vào năm 2023.
Sự khác biệt là chất lượng đầu ra của Z-Image tương đương hoặc tốt hơn Flux. Trên một chiếc laptop với GPU RTX 2060 có 6GB VRAM, một hình ảnh mất 34 giây.
Flux2, so với đó, mất khoảng mười lần thời gian để tạo ra một hình ảnh tương đương.
Chủ nghĩa hiện thực: Tiêu chuẩn mới
Z-Image Turbo là mô hình mã nguồn mở chân thực nhất hiện có cho phần cứng tiêu dùng. Nó vượt trội hơn hoàn toàn so với Flux2, và mô hình tinh chế cơ bản vượt trội so với các tinh chỉnh độ chân thực dành riêng của Flux.
Kết cấu da và tóc trông chi tiết và tự nhiên. “Cằm Flux” nổi tiếng và “da nhựa” hầu như đã biến mất. Tỷ lệ cơ thể luôn vững chắc, và các LoRAs cải thiện tính thực tế còn hơn nữa đã được lưu hành.
Tạo Văn Bản: Cuối Cùng, Những Từ Có Hiệu Quả
Đây là nơi Z-Image thực sự tỏa sáng. Đây là mô hình mã nguồn mở tốt nhất cho việc tạo văn bản trong hình ảnh, hoạt động ngang bằng với Nanobanana và Seedream của Google—các mô hình thiết lập tiêu chuẩn hiện tại.
Đối với người nói tiếng Quan Thoại, Z-Image là sự lựa chọn rõ ràng. Nó hiểu tiếng Trung một cách bản địa và hiển thị các ký tự một cách chính xác.
Mẹo chuyên nghiệp: Một số người dùng đã báo cáo rằng việc nhắc nhở bằng tiếng Trung thực sự giúp mô hình sản xuất đầu ra tốt hơn, và các nhà phát triển thậm chí đã phát hành một “công cụ cải thiện nhắc nhở” bằng tiếng Trung.
Văn bản tiếng Anh cũng mạnh mẽ như nhau, với một ngoại lệ: những từ dài không phổ biến như “decentralized” có thể khiến nó gặp khó khăn - một hạn chế mà Nanobanana cũng gặp phải.
Nhận thức không gian và tuân thủ kịp thời: Xuất sắc
Sự tuân thủ hướng dẫn của Z-Image thật xuất sắc. Nó hiểu phong cách, mối quan hệ không gian, vị trí và tỷ lệ với độ chính xác đáng kể.
Ví dụ, hãy lấy câu lệnh này:
Như đã thấy, nó chỉ có một lỗi chính tả, có lẽ vì sự pha trộn ngôn ngữ, nhưng ngoài điều đó ra, tất cả các yếu tố đều được thể hiện chính xác.
Chảy prompt là tối thiểu, và các cảnh phức tạp với nhiều nhân vật vẫn giữ được sự mạch lạc. Nó vượt qua Flux về chỉ số này và giữ vững vị thế của mình trước Nanobanana.
Điều Gì Sẽ Xảy Ra Tiếp Theo?
Alibaba dự kiến phát hành thêm hai biến thể nữa: Z-Image-Base để tinh chỉnh, và Z-Image-Edit cho các chỉnh sửa dựa trên hướng dẫn. Nếu chúng ra mắt với độ hoàn thiện tương tự như Turbo, thì cảnh quan mã nguồn mở sắp có sự thay đổi mạnh mẽ.
Hiện tại, phán quyết của cộng đồng rất rõ ràng: Z-Image đã chiếm lấy vương miện của Flux, giống như cách mà Flux từng lật đổ Stable Diffusion.
Người chiến thắng thực sự sẽ là người thu hút được nhiều nhà phát triển nhất để xây dựng trên nền tảng đó.
Nhưng nếu bạn hỏi chúng tôi, thì Z-Image là mô hình mã nguồn mở hướng về gia đình yêu thích của chúng tôi ngay bây giờ.