Gateアプリをダウンロードするにはスキャンしてください
qrCode
その他のダウンロードオプション
今日はこれ以上表示しない

中国のZ-ImageがAIアートの王者Fluxを dethrone—そしてあなたのポテトPCでも動作します

image

ソース: CryptoNewsNet オリジナルタイトル:中国のZ-ImageがAIアートの王者Fluxを打倒—そしてあなたのポテトPCでも実行可能 オリジナルリンク:

概要

アリババのTongyi Lab Z-Image Turboは、60億パラメータの画像生成モデルで、先週リリースされました。そのシンプルな約束は、実際に所有しているハードウェアでの最先端の品質です。

その約束は厳しく着地しています。リリースから数日以内に、開発者たちはFluxモデルの非常に人気のある後継者であるFlux2をすでに上回るペースで、LoRA(カスタム微調整された適応)を作成していました。

Z-Imageのパーティートリックは効率です。Flux2のような競合は最低24GBのVRAMを要求し、完全モデルには最大90GBが必要ですが、Z-Imageは6GBの量子化されたセットアップで動作します。

それはRTX 2060の領域です—基本的に2019年のハードウェアです。解像度によっては、ユーザーはわずか30秒で画像を生成できます。

趣味人やインディクリエイターにとって、これは以前は閉ざされていた扉です。

コミュニティの受け入れ

AIアートコミュニティはモデルを迅速に称賛しました。

「これがSD3があるべき姿だった」とユーザーのSaruheyは、世界最大のオープンソースAIアートツールのリポジトリであるCivitAIに書き込みました。「プロンプトの遵守は非常に素晴らしい…すぐにテキストを処理できるモデルはゲームチェンジャーです。このものはFluxが独自に持つ黒魔術と同じくらい、あるいはそれ以上の力を秘めています。中国はAIゲームで大きく先を行っています。」

Z-Image Turboは先週の木曜日からCivitaiで利用可能になり、すでに1,200件以上のポジティブなレビューを得ています。参考までに、Z-Imageの数日前にリリースされたFlux2は157件です。

モデルは完全に無修正で作成されています。セレブリティ、フィクションのキャラクター、そしてもちろん、明示的なコンテンツもすべて対象です。

本日現在、Civitaiには約200のリソース(ファインチューン、LoRA、ワークフロー)があり、その多くはNSFWです。

Redditで、ユーザーRegular-Forever5876は、モデルの限界をグロテスクなプロンプトで試し、驚愕しました:「なんてこった!!!このやつはグロテスクを理解しているAF!完璧に生成する」と彼らは書きました。

技術アーキテクチャ

Z-Image Turboの技術的な秘密は、そのS3-DiTアーキテクチャにあります。これは、テキストと画像データを最初から一緒に処理する単一ストリームトランスフォーマーであり、後で統合するのではありません。この緊密な統合と積極的な蒸留技術の組み合わせにより、モデルは通常、5倍のサイズのモデルが必要とする品質基準を満たすことができます。

モデルのテスト

( スピード: SDXL ペース, 次世代クオリティ

9ステップで、Z-Image TurboはSDXLとほぼ同じ速度で画像を生成します。通常の30ステップで、2023年にリリースされたモデルです。

違いは、Z-Imageの出力品質がFluxに匹敵するか、それを上回ることです。6GBのVRAMを搭載したRTX 2060 GPUのノートパソコンで、1枚の画像を生成するのに34秒かかりました。

Flux2は比較すると、同等の画像を生成するのに約10倍の時間がかかります。

) リアリズム: 新しいベンチマーク

Z-Image Turboは、現在、消費者向けハードウェア用の最もフォトリアルなオープンソースモデルです。Flux2を完全に凌駕し、ベースの蒸留モデルはFluxの専用リアリズムファインチューンを上回ります。

肌と髪の質感は詳細で自然に見えます。悪名高い「フラックス顎」と「プラスチック肌」はほとんど消えています。体の比率は一貫して優れており、リアリズムをさらに高めるLoRAsがすでに流通しています。

テキスト生成:ついに、効果的な言葉

ここがZ-Imageが真に輝く場所です。これは、画像内テキスト生成のための最高のオープンソースモデルであり、GoogleのNanobananaやSeedreamと同等のパフォーマンスを発揮します。これらのモデルは現在の基準を設定しています。

中国語を話す人にとって、Z-Imageは明らかな選択です。中国語をネイティブに理解し、文字を正しく表示します。

プロのヒント:一部のユーザーは、マンダリンでプロンプトを作成すると、モデルがより良い出力を生成するのに役立つと報告しています。また、開発者はマンダリンで「プロンプトエンハンサー」を公開しました。

英語のテキストは同様に強力ですが、1つの例外があります:"decentralized"のような珍しい長い単語は、つまずく原因になることがあります。これはNanobananaにも共通する制限です。

空間認識と迅速な遵守:非常に優れています

Z-Imageのプロンプト遵守は素晴らしいです。スタイル、空間的関係、位置、そして比率を驚くべき精度で理解しています。

例えば、このプロンプトを取ります:

赤い帽子をかぶった犬が、"Decrypt は世界で最も優れた暗号通貨と人工知能メディアサイトです"という言葉が表示されたテレビの上に立っています。左側には、コインを持った金髪の女性がビジネススーツを着ており、右側には救急箱の上に立つロボットがいて、その箱の後ろには緑のピラミッドがあります。全体の風景は超現実的です。犬の隣には、白いサッカーボールの上に逆さまに立っている猫がいます。NASAの宇宙飛行士が"Emerge"と書かれたサインを持っており、ロボットの隣に置かれています。

目立つように、それには1つの誤字しかなく、おそらく言語の混合のためですが、それ以外はすべての要素が正確に表現されています。

プロンプトの出血は最小限であり、複雑なシーンで複数の被写体が一貫性を保っています。この指標ではFluxを上回り、Nanobananaにも匹敵します。

次は何ですか?

アリババは、微調整用のZ-Image-Baseと、指示に基づく修正用のZ-Image-Editの2つのバリアントをリリースする計画です。もしこれらがTurboと同じ洗練された仕上がりで登場すれば、オープンソースの風景は劇的に変わるでしょう。

今のところ、コミュニティの評決は明確です:Z-ImageはFluxの王冠を奪いました。まるでFluxがかつてStable Diffusionの王位を奪ったように。

真の勝者は、それに基づいて最も多くの開発者を引きつける者になるでしょう。

でも、もし私たちに聞いてくれたら、そうですね、Z-Imageは今私たちのお気に入りの家庭向けオープンソースモデルです。

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン