Sumber: CryptoNewsNet
Judul Asli: Z-Image China Menyingkirkan Flux sebagai Raja Seni AI—Dan PC Kentang Anda Bisa Menjalankannya
Link Asli:
Gambaran Umum
Laboratorium Tongyi Alibaba Z-Image Turbo, sebuah model generasi gambar dengan 6 miliar parameter, diluncurkan minggu lalu dengan janji sederhana: kualitas terbaik pada perangkat keras yang sebenarnya Anda miliki.
Janji itu mendarat dengan keras. Beberapa hari setelah dirilis, para pengembang telah menghasilkan LoRA—adaptasi yang disesuaikan dengan baik—dengan kecepatan yang sudah melampaui Flux2, penerus yang banyak dibicarakan dari model Flux yang sangat populer.
Trik pesta Z-Image adalah efisiensi. Sementara pesaing seperti Flux2 membutuhkan minimum 24GB VRAM ( dan hingga 90GB untuk model lengkap ), Z-Image berjalan pada pengaturan kuantisasi dengan hanya 6GB.
Itu adalah wilayah RTX 2060—sebenarnya perangkat keras dari tahun 2019. Tergantung pada resolusi, pengguna dapat menghasilkan gambar dalam waktu hanya 30 detik.
Bagi para hobi dan pembuat indie, ini adalah pintu yang sebelumnya terkunci.
Penerimaan Komunitas
Komunitas seni AI cepat memuji model tersebut.
“Inilah yang seharusnya menjadi SD3,” tulis pengguna Saruhey di CivitAI, repositori alat seni AI sumber terbuka terbesar di dunia. “Kepatuhan terhadap promptnya cukup luar biasa… sebuah model yang bisa melakukan teks langsung adalah perubahan permainan. Ini memiliki kekuatan yang sama, jika tidak lebih baik, daripada Flux yang merupakan sihir hitam itu sendiri. Orang-orang Cina sudah jauh lebih maju dalam permainan AI.”
Z-Image Turbo telah tersedia di Civitai sejak Kamis lalu dan telah mendapatkan lebih dari 1.200 ulasan positif. Sebagai konteks, Flux2—dirilis beberapa hari sebelum Z-Image—memiliki 157.
Model ini sepenuhnya tidak disensor dari awal. Selebriti, karakter fiksi, dan ya, konten eksplisit semuanya ada di meja.
Hingga hari ini, ada sekitar 200 sumber (finetunes, LoRAs, workflows) untuk model di Civitai saja, banyak di antaranya adalah NSFW.
Di Reddit, pengguna Regular-Forever5876 menguji batas model dengan prompt gore dan merasa terkejut: “Sungguh luar biasa!!! Alat ini memahami gore dengan sangat baik! Ia menghasilkan dengan sempurna,” tulis mereka.
Arsitektur Teknik
Rahasia teknis di balik Z-Image Turbo adalah arsitektur S3-DiT-nya—sebuah transformer aliran tunggal yang memproses data teks dan gambar bersama-sama sejak awal, daripada menggabungkannya kemudian. Integrasi yang ketat ini, dikombinasikan dengan teknik distilasi yang agresif, memungkinkan model ini untuk memenuhi tolok ukur kualitas yang biasanya memerlukan model yang lima kali ukurannya.
Pada sembilan langkah, Z-Image Turbo menghasilkan gambar dengan kecepatan yang hampir sama dengan SDXL, dengan 30 langkah yang biasa—sebuah model yang dirilis pada tahun 2023.
Perbedaannya adalah bahwa kualitas output Z-Image sebanding atau lebih baik dari Flux. Pada laptop dengan GPU RTX 2060 dengan 6GB VRAM, satu gambar memerlukan waktu 34 detik.
Flux2, dibandingkan, memerlukan waktu sekitar sepuluh kali lebih lama untuk menghasilkan gambar yang sebanding.
Realisme: Tolok Ukur Baru
Z-Image Turbo adalah model open-source paling fotorealistik yang tersedia saat ini untuk perangkat keras kelas konsumen. Ini mengalahkan Flux2 secara langsung, dan model dasar distil memberikan performa lebih baik daripada fine-tune realisme khusus dari Flux.
Tekstur kulit dan rambut terlihat detail dan alami. “Flux chin” yang terkenal dan “kulit plastik” sebagian besar sudah hilang. Proporsi tubuh secara konsisten solid, dan LoRA yang meningkatkan realisme bahkan lebih lanjut sudah beredar.
Generasi Teks: Akhirnya, Kata-Kata yang Berfungsi
Di sinilah Z-Image benar-benar bersinar. Ini adalah model sumber terbuka terbaik untuk generasi teks dalam gambar, berkinerja setara dengan Nanobanana dan Seedream dari Google—model yang menetapkan standar saat ini.
Bagi penutur Mandarin, Z-Image adalah pilihan yang jelas. Ini memahami bahasa Cina secara alami dan menampilkan karakter dengan benar.
Tip pro: Beberapa pengguna melaporkan bahwa memberikan instruksi dalam Mandarin sebenarnya membantu model menghasilkan keluaran yang lebih baik, dan para pengembang bahkan menerbitkan “penguat instruksi” dalam Mandarin.
Teks bahasa Inggris juga kuat, dengan satu pengecualian: kata-kata panjang yang tidak umum seperti “decentralized” bisa membuatnya tersandung—sebuah keterbatasan yang juga dimiliki oleh Nanobanana.
Kesadaran Ruang dan Kepatuhan Cepat: Luar Biasa
Kepatuhan prompt Z-Image sangat luar biasa. Ia memahami gaya, hubungan spasial, posisi, dan proporsi dengan presisi yang luar biasa.
Misalnya, ambil prompt ini:
Seekor anjing dengan topi merah berdiri di atas TV yang menunjukkan kata-kata “Decrypt 是世界上最好的加密货币与人工智能媒体网站” di layar. Di sebelah kiri, ada seorang wanita pirang dalam setelan bisnis memegang koin; di sebelah kanan, ada robot yang berdiri di atas kotak P3K, dan sebuah piramida hijau berdiri di belakang kotak tersebut. Pemandangan secara keseluruhan sangat surreal. Seekor kucing berdiri terbalik di atas bola sepak putih, di samping anjing. Seorang Astronot dari NASA memegang papan yang bertuliskan “Emerge” dan diletakkan di samping robot.
Seperti yang terlihat, hanya ada satu kesalahan ketik, mungkin karena campuran bahasa, tetapi selain itu, semua elemen diwakili dengan akurat.
Pendaran prompt minimal, dan adegan kompleks dengan beberapa subjek tetap koheren. Ini mengalahkan Flux dalam metrik ini dan mampu bersaing dengan Nanobanana.
Apa Selanjutnya?
Alibaba berencana untuk merilis dua varian lagi: Z-Image-Base untuk fine-tuning, dan Z-Image-Edit untuk modifikasi berbasis instruksi. Jika mereka hadir dengan kualitas yang sama seperti Turbo, lanskap open-source akan segera berubah secara dramatis.
Untuk saat ini, keputusan komunitas jelas: Z-Image telah mengambil mahkota Flux, seperti halnya Flux yang pernah menurunkan Stable Diffusion.
Pemenang sejati adalah siapa pun yang menarik pengembang terbanyak untuk membangun di atasnya.
Tapi jika Anda bertanya kepada kami, ya, Z-Image adalah model open source yang berorientasi rumah favorit kami saat ini.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Z-Image dari China Menyingkirkan Flux sebagai Raja Seni AI—Dan PC Kentang Anda Bisa Menjalankannya
Sumber: CryptoNewsNet Judul Asli: Z-Image China Menyingkirkan Flux sebagai Raja Seni AI—Dan PC Kentang Anda Bisa Menjalankannya Link Asli:
Gambaran Umum
Laboratorium Tongyi Alibaba Z-Image Turbo, sebuah model generasi gambar dengan 6 miliar parameter, diluncurkan minggu lalu dengan janji sederhana: kualitas terbaik pada perangkat keras yang sebenarnya Anda miliki.
Janji itu mendarat dengan keras. Beberapa hari setelah dirilis, para pengembang telah menghasilkan LoRA—adaptasi yang disesuaikan dengan baik—dengan kecepatan yang sudah melampaui Flux2, penerus yang banyak dibicarakan dari model Flux yang sangat populer.
Trik pesta Z-Image adalah efisiensi. Sementara pesaing seperti Flux2 membutuhkan minimum 24GB VRAM ( dan hingga 90GB untuk model lengkap ), Z-Image berjalan pada pengaturan kuantisasi dengan hanya 6GB.
Itu adalah wilayah RTX 2060—sebenarnya perangkat keras dari tahun 2019. Tergantung pada resolusi, pengguna dapat menghasilkan gambar dalam waktu hanya 30 detik.
Bagi para hobi dan pembuat indie, ini adalah pintu yang sebelumnya terkunci.
Penerimaan Komunitas
Komunitas seni AI cepat memuji model tersebut.
“Inilah yang seharusnya menjadi SD3,” tulis pengguna Saruhey di CivitAI, repositori alat seni AI sumber terbuka terbesar di dunia. “Kepatuhan terhadap promptnya cukup luar biasa… sebuah model yang bisa melakukan teks langsung adalah perubahan permainan. Ini memiliki kekuatan yang sama, jika tidak lebih baik, daripada Flux yang merupakan sihir hitam itu sendiri. Orang-orang Cina sudah jauh lebih maju dalam permainan AI.”
Z-Image Turbo telah tersedia di Civitai sejak Kamis lalu dan telah mendapatkan lebih dari 1.200 ulasan positif. Sebagai konteks, Flux2—dirilis beberapa hari sebelum Z-Image—memiliki 157.
Model ini sepenuhnya tidak disensor dari awal. Selebriti, karakter fiksi, dan ya, konten eksplisit semuanya ada di meja.
Hingga hari ini, ada sekitar 200 sumber (finetunes, LoRAs, workflows) untuk model di Civitai saja, banyak di antaranya adalah NSFW.
Di Reddit, pengguna Regular-Forever5876 menguji batas model dengan prompt gore dan merasa terkejut: “Sungguh luar biasa!!! Alat ini memahami gore dengan sangat baik! Ia menghasilkan dengan sempurna,” tulis mereka.
Arsitektur Teknik
Rahasia teknis di balik Z-Image Turbo adalah arsitektur S3-DiT-nya—sebuah transformer aliran tunggal yang memproses data teks dan gambar bersama-sama sejak awal, daripada menggabungkannya kemudian. Integrasi yang ketat ini, dikombinasikan dengan teknik distilasi yang agresif, memungkinkan model ini untuk memenuhi tolok ukur kualitas yang biasanya memerlukan model yang lima kali ukurannya.
Menguji Model
Kecepatan: SDXL Pace, Kualitas Generasi Berikutnya
Pada sembilan langkah, Z-Image Turbo menghasilkan gambar dengan kecepatan yang hampir sama dengan SDXL, dengan 30 langkah yang biasa—sebuah model yang dirilis pada tahun 2023.
Perbedaannya adalah bahwa kualitas output Z-Image sebanding atau lebih baik dari Flux. Pada laptop dengan GPU RTX 2060 dengan 6GB VRAM, satu gambar memerlukan waktu 34 detik.
Flux2, dibandingkan, memerlukan waktu sekitar sepuluh kali lebih lama untuk menghasilkan gambar yang sebanding.
Realisme: Tolok Ukur Baru
Z-Image Turbo adalah model open-source paling fotorealistik yang tersedia saat ini untuk perangkat keras kelas konsumen. Ini mengalahkan Flux2 secara langsung, dan model dasar distil memberikan performa lebih baik daripada fine-tune realisme khusus dari Flux.
Tekstur kulit dan rambut terlihat detail dan alami. “Flux chin” yang terkenal dan “kulit plastik” sebagian besar sudah hilang. Proporsi tubuh secara konsisten solid, dan LoRA yang meningkatkan realisme bahkan lebih lanjut sudah beredar.
Generasi Teks: Akhirnya, Kata-Kata yang Berfungsi
Di sinilah Z-Image benar-benar bersinar. Ini adalah model sumber terbuka terbaik untuk generasi teks dalam gambar, berkinerja setara dengan Nanobanana dan Seedream dari Google—model yang menetapkan standar saat ini.
Bagi penutur Mandarin, Z-Image adalah pilihan yang jelas. Ini memahami bahasa Cina secara alami dan menampilkan karakter dengan benar.
Tip pro: Beberapa pengguna melaporkan bahwa memberikan instruksi dalam Mandarin sebenarnya membantu model menghasilkan keluaran yang lebih baik, dan para pengembang bahkan menerbitkan “penguat instruksi” dalam Mandarin.
Teks bahasa Inggris juga kuat, dengan satu pengecualian: kata-kata panjang yang tidak umum seperti “decentralized” bisa membuatnya tersandung—sebuah keterbatasan yang juga dimiliki oleh Nanobanana.
Kesadaran Ruang dan Kepatuhan Cepat: Luar Biasa
Kepatuhan prompt Z-Image sangat luar biasa. Ia memahami gaya, hubungan spasial, posisi, dan proporsi dengan presisi yang luar biasa.
Misalnya, ambil prompt ini:
Seperti yang terlihat, hanya ada satu kesalahan ketik, mungkin karena campuran bahasa, tetapi selain itu, semua elemen diwakili dengan akurat.
Pendaran prompt minimal, dan adegan kompleks dengan beberapa subjek tetap koheren. Ini mengalahkan Flux dalam metrik ini dan mampu bersaing dengan Nanobanana.
Apa Selanjutnya?
Alibaba berencana untuk merilis dua varian lagi: Z-Image-Base untuk fine-tuning, dan Z-Image-Edit untuk modifikasi berbasis instruksi. Jika mereka hadir dengan kualitas yang sama seperti Turbo, lanskap open-source akan segera berubah secara dramatis.
Untuk saat ini, keputusan komunitas jelas: Z-Image telah mengambil mahkota Flux, seperti halnya Flux yang pernah menurunkan Stable Diffusion.
Pemenang sejati adalah siapa pun yang menarik pengembang terbanyak untuk membangun di atasnya.
Tapi jika Anda bertanya kepada kami, ya, Z-Image adalah model open source yang berorientasi rumah favorit kami saat ini.