掃描下載 Gate App
qrCode
更多下載方式
今天不再提醒

中國的Z-Image取代Flux成爲AI藝術之王——而你的土豆電腦也能運行它

image

資料來源:CryptoNewsNet 原始標題:中國的Z-Image取代Flux成爲AI藝術之王——而你的土豆電腦也能運行它 原始連結:

概述

阿裏巴巴的同義實驗室Z-Image Turbo,一個擁有60億參數的圖像生成模型,上周發布,承諾提供頂尖質量,使用您實際擁有的硬件。

這個承諾正在遭遇嚴峻考驗。在發布後的幾天內,開發者們已經以超過Flux2的速度推出了LoRAs——自定義微調適配版本,而Flux2是備受熱議的對廣受歡迎的Flux模型的繼任者。

Z-Image的絕活是高效。雖然像Flux2這樣的競爭對手最低需要24GB的顯存(,完整模型則需要多達90GB),Z-Image在量化設置下可以使用最低6GB。

那是RTX 2060的領域——基本上是2019年的硬件。根據分辨率,用戶可以在短短30秒內生成圖像。

對於愛好者和獨立創作者來說,這扇門以前是鎖着的。

社區接待

AI藝術社區迅速贊揚了該模型。

“這就是 SD3 應該是的樣子,” 用戶 Saruhey 在 CivitAI 上寫道,這是世界上最大的開源 AI 藝術工具庫。“提示遵循性相當出色… 一個可以立即處理文本的模型是顛覆性的。這東西的能力與 Flux 獨自的黑魔法相當,甚至更強。中國在 AI 遊戲中遙遙領先。”

Z-Image Turbo 自上周四以來已在 Civitai 上上線,並且已經獲得超過 1,200 條積極評價。作爲對比,幾天前發布的 Flux2 僅有 157 條。

該模型完全從零開始無審查。名人、虛構角色,以及,是的,露骨內容都是可以接受的。

截至今天,Civitai上大約有200個資源(微調、LoRA、工作流)供該模型使用,其中許多是NSFW.

在Reddit上,用戶Regular-Forever5876用血腥的提示測試了模型的極限,結果驚訝不已:"天哪!!!這個東西對血腥的理解簡直太完美了!它生成得毫無瑕疵,"他們寫道。

技術架構

Z-Image Turbo 背後的技術祕密是其 S3-DiT 架構——一種單流變壓器,它從一開始就將文本和圖像數據一起處理,而不是後來再合並。這樣的緊密集成,加上激進的蒸餾技術,使得該模型能夠達到通常需要五倍於其規模的模型才能滿足的質量基準。

測試模型

速度:SDXL 節奏,下一代質量

在九步時,Z-Image Turbo生成圖像的速度與SDXL(通常爲30步)大致相同——這是一個在2023年發布的模型。

區別在於,Z-Image 的輸出質量與 Flux 相當或更好。在一臺配備 6GB VRAM 的 RTX 2060 GPU 的筆記本電腦上,一張圖像的處理時間爲 34 秒。

相比之下,Flux2生成一幅可比圖像的時間大約是十倍。

現實主義:新基準

Z-Image Turbo 是目前可用於消費級硬件的最具照片現實感的開源模型。它直接超越了 Flux2,基礎蒸餾模型的表現超過了 Flux 的專用現實主義微調。

皮膚和頭發的質感看起來細致而自然。臭名昭著的“Flux下巴”和“塑料皮膚”大多消失了。身體比例始終保持穩定,而進一步增強現實感的LoRA已經在流傳。

文本生成:最終,奏效的詞匯

這是Z-Image真正出色的地方。它是圖像內文本生成的最佳開源模型,其性能與谷歌的Nanobanana和Seedream相媲美——這些模型設定了當前的標準。

對於普通話使用者來說,Z-Image顯然是最佳選擇。它能夠本地理解中文,並正確渲染字符。

專業提示:一些用戶報告說,用普通話提示實際上有助於模型產生更好的輸出,開發者甚至發布了一個普通話的 “提示增強器”。

英文文本同樣強大,唯一的例外是:像“去中心化”這樣的不常見長詞可能會讓它絆倒——這是Nanobanana也面臨的限制。

空間意識與及時遵守:卓越

Z-Image的提示遵循性非常出色。它以驚人的精確度理解風格、空間關係、位置和比例。

例如,拿這個提示:

一只戴着紅色帽子的狗站在一臺電視上,屏幕上顯示着 “Decrypt 是世界上最好的加密貨幣與人工智能媒體網站”。左邊是一位穿着商務套裝的金發女性,手中拿着一枚硬幣;右邊是一個站在急救箱上的機器人,急救箱後面是一座綠色的金字塔。整體場景超現實。一只貓倒立在一個白色足球上,旁邊是那只狗。一位來自NASA的宇航員舉着一個寫着 "Emerge " 的標志,放在機器人旁邊。

顯而易見,它只有一個拼寫錯誤,可能是由於語言混合,但除此之外,所有元素都準確地表示出來了。

提示出血很少,多個主題的復雜場景保持一致性。在這一指標上,它優於Flux,並且在與Nanobanana的比較中也表現出色。

接下來是什麼?

阿裏巴巴計劃發布兩個更多的變體:用於微調的 Z-Image-Base 和用於基於指令的修改的 Z-Image-Edit。如果它們的表現與 Turbo 一樣出色,開源領域將會發生劇烈變化。

目前,社區的裁決很明確:Z-Image 已經奪取了 Flux 的王冠,正如 Flux 曾經推翻 Stable Diffusion 一樣。

真正的贏家將是吸引最多開發者在其基礎上構建的人。

但是如果你問我們,是的,Z-Image是我們現在最喜歡的面向家庭的開源模型。

此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)