中国のZ-ImageがAIアートの王者Fluxを dethrone—そしてあなたのポテトPCでも動作します

MEVictim

2025-12-02 04:24:52

ソース: CryptoNewsNet オリジナルタイトル：中国のZ-ImageがAIアートの王者Fluxを打倒—そしてあなたのポテトPCでも実行可能オリジナルリンク:

概要

アリババのTongyi Lab Z-Image Turboは、60億パラメータの画像生成モデルで、先週リリースされました。そのシンプルな約束は、実際に所有しているハードウェアでの最先端の品質です。

その約束は厳しく着地しています。リリースから数日以内に、開発者たちはFluxモデルの非常に人気のある後継者であるFlux2をすでに上回るペースで、LoRA（カスタム微調整された適応）を作成していました。

Z-Imageのパーティートリックは効率です。Flux2のような競合は最低24GBのVRAMを要求し、完全モデルには最大90GBが必要ですが、Z-Imageは6GBの量子化されたセットアップで動作します。

それはRTX 2060の領域です—基本的に2019年のハードウェアです。解像度によっては、ユーザーはわずか30秒で画像を生成できます。

趣味人やインディクリエイターにとって、これは以前は閉ざされていた扉です。

コミュニティの受け入れ

AIアートコミュニティはモデルを迅速に称賛しました。

「これがSD3があるべき姿だった」とユーザーのSaruheyは、世界最大のオープンソースAIアートツールのリポジトリであるCivitAIに書き込みました。「プロンプトの遵守は非常に素晴らしい…すぐにテキストを処理できるモデルはゲームチェンジャーです。このものはFluxが独自に持つ黒魔術と同じくらい、あるいはそれ以上の力を秘めています。中国はAIゲームで大きく先を行っています。」

Z-Image Turboは先週の木曜日からCivitaiで利用可能になり、すでに1,200件以上のポジティブなレビューを得ています。参考までに、Z-Imageの数日前にリリースされたFlux2は157件です。

モデルは完全に無修正で作成されています。セレブリティ、フィクションのキャラクター、そしてもちろん、明示的なコンテンツもすべて対象です。

本日現在、Civitaiには約200のリソース(ファインチューン、LoRA、ワークフロー)があり、その多くはNSFWです。

Redditで、ユーザーRegular-Forever5876は、モデルの限界をグロテスクなプロンプトで試し、驚愕しました：「なんてこった！！！このやつはグロテスクを理解しているAF！完璧に生成する」と彼らは書きました。

技術アーキテクチャ

Z-Image Turboの技術的な秘密は、そのS3-DiTアーキテクチャにあります。これは、テキストと画像データを最初から一緒に処理する単一ストリームトランスフォーマーであり、後で統合するのではありません。この緊密な統合と積極的な蒸留技術の組み合わせにより、モデルは通常、5倍のサイズのモデルが必要とする品質基準を満たすことができます。

モデルのテスト

( スピード: SDXL ペース, 次世代クオリティ

9ステップで、Z-Image TurboはSDXLとほぼ同じ速度で画像を生成します。通常の30ステップで、2023年にリリースされたモデルです。

違いは、Z-Imageの出力品質がFluxに匹敵するか、それを上回ることです。6GBのVRAMを搭載したRTX 2060 GPUのノートパソコンで、1枚の画像を生成するのに34秒かかりました。

Flux2は比較すると、同等の画像を生成するのに約10倍の時間がかかります。

) リアリズム: 新しいベンチマーク

Z-Image Turboは、現在、消費者向けハードウェア用の最もフォトリアルなオープンソースモデルです。Flux2を完全に凌駕し、ベースの蒸留モデルはFluxの専用リアリズムファインチューンを上回ります。

肌と髪の質感は詳細で自然に見えます。悪名高い「フラックス顎」と「プラスチック肌」はほとんど消えています。体の比率は一貫して優れており、リアリズムをさらに高めるLoRAsがすでに流通しています。

テキスト生成：ついに、効果的な言葉

ここがZ-Imageが真に輝く場所です。これは、画像内テキスト生成のための最高のオープンソースモデルであり、GoogleのNanobananaやSeedreamと同等のパフォーマンスを発揮します。これらのモデルは現在の基準を設定しています。

中国語を話す人にとって、Z-Imageは明らかな選択です。中国語をネイティブに理解し、文字を正しく表示します。

プロのヒント：一部のユーザーは、マンダリンでプロンプトを作成すると、モデルがより良い出力を生成するのに役立つと報告しています。また、開発者はマンダリンで「プロンプトエンハンサー」を公開しました。

英語のテキストは同様に強力ですが、1つの例外があります："decentralized"のような珍しい長い単語は、つまずく原因になることがあります。これはNanobananaにも共通する制限です。

空間認識と迅速な遵守:非常に優れています

Z-Imageのプロンプト遵守は素晴らしいです。スタイル、空間的関係、位置、そして比率を驚くべき精度で理解しています。

例えば、このプロンプトを取ります:

赤い帽子をかぶった犬が、"Decrypt は世界で最も優れた暗号通貨と人工知能メディアサイトです"という言葉が表示されたテレビの上に立っています。左側には、コインを持った金髪の女性がビジネススーツを着ており、右側には救急箱の上に立つロボットがいて、その箱の後ろには緑のピラミッドがあります。全体の風景は超現実的です。犬の隣には、白いサッカーボールの上に逆さまに立っている猫がいます。NASAの宇宙飛行士が"Emerge"と書かれたサインを持っており、ロボットの隣に置かれています。

目立つように、それには1つの誤字しかなく、おそらく言語の混合のためですが、それ以外はすべての要素が正確に表現されています。

プロンプトの出血は最小限であり、複雑なシーンで複数の被写体が一貫性を保っています。この指標ではFluxを上回り、Nanobananaにも匹敵します。