扫码下载 APP
qrCode
更多下载方式
今天不再提醒

中国的Z-Image取代Flux成为AI艺术之王——而你的土豆电脑也能运行它

image

资料来源:CryptoNewsNet 原始标题:中国的Z-Image取代Flux成为AI艺术之王——而你的土豆电脑也能运行它 原始链接:

概述

阿里巴巴的同义实验室Z-Image Turbo,一个拥有60亿参数的图像生成模型,上周发布,承诺提供顶尖质量,使用您实际拥有的硬件。

这个承诺正在遭遇严峻考验。在发布后的几天内,开发者们已经以超过Flux2的速度推出了LoRAs——自定义微调适配版本,而Flux2是备受热议的对广受欢迎的Flux模型的继任者。

Z-Image的绝活是高效。虽然像Flux2这样的竞争对手最低需要24GB的显存(,完整模型则需要多达90GB),Z-Image在量化设置下可以使用最低6GB。

那是RTX 2060的领域——基本上是2019年的硬件。根据分辨率,用户可以在短短30秒内生成图像。

对于爱好者和独立创作者来说,这扇门以前是锁着的。

社区接待

AI艺术社区迅速赞扬了该模型。

“这就是 SD3 应该是的样子,” 用户 Saruhey 在 CivitAI 上写道,这是世界上最大的开源 AI 艺术工具库。“提示遵循性相当出色… 一个可以立即处理文本的模型是颠覆性的。这东西的能力与 Flux 独自的黑魔法相当,甚至更强。中国在 AI 游戏中遥遥领先。”

Z-Image Turbo 自上周四以来已在 Civitai 上上线,并且已经获得超过 1,200 条积极评价。作为对比,几天前发布的 Flux2 仅有 157 条。

该模型完全从零开始无审查。名人、虚构角色,以及,是的,露骨内容都是可以接受的。

截至今天,Civitai上大约有200个资源(微调、LoRA、工作流)供该模型使用,其中许多是NSFW.

在Reddit上,用户Regular-Forever5876用血腥的提示测试了模型的极限,结果惊讶不已:"天哪!!!这个东西对血腥的理解简直太完美了!它生成得毫无瑕疵,"他们写道。

技术架构

Z-Image Turbo 背后的技术秘密是其 S3-DiT 架构——一种单流变压器,它从一开始就将文本和图像数据一起处理,而不是后来再合并。这样的紧密集成,加上激进的蒸馏技术,使得该模型能够达到通常需要五倍于其规模的模型才能满足的质量基准。

测试模型

速度:SDXL 节奏,下一代质量

在九步时,Z-Image Turbo生成图像的速度与SDXL(通常为30步)大致相同——这是一个在2023年发布的模型。

区别在于,Z-Image 的输出质量与 Flux 相当或更好。在一台配备 6GB VRAM 的 RTX 2060 GPU 的笔记本电脑上,一张图像的处理时间为 34 秒。

相比之下,Flux2生成一幅可比图像的时间大约是十倍。

现实主义:新基准

Z-Image Turbo 是目前可用于消费级硬件的最具照片现实感的开源模型。它直接超越了 Flux2,基础蒸馏模型的表现超过了 Flux 的专用现实主义微调。

皮肤和头发的质感看起来细致而自然。臭名昭著的“Flux下巴”和“塑料皮肤”大多消失了。身体比例始终保持稳定,而进一步增强现实感的LoRA已经在流传。

文本生成:最终,奏效的词汇

这是Z-Image真正出色的地方。它是图像内文本生成的最佳开源模型,其性能与谷歌的Nanobanana和Seedream相媲美——这些模型设定了当前的标准。

对于普通话使用者来说,Z-Image显然是最佳选择。它能够本地理解中文,并正确渲染字符。

专业提示:一些用户报告说,用普通话提示实际上有助于模型产生更好的输出,开发者甚至发布了一个普通话的 “提示增强器”。

英文文本同样强大,唯一的例外是:像“去中心化”这样的不常见长词可能会让它绊倒——这是Nanobanana也面临的限制。

空间意识与及时遵守:卓越

Z-Image的提示遵循性非常出色。它以惊人的精确度理解风格、空间关系、位置和比例。

例如,拿这个提示:

一只戴着红色帽子的狗站在一台电视上,屏幕上显示着 “Decrypt 是世界上最好的加密货币与人工智能媒体网站”。左边是一位穿着商务套装的金发女性,手中拿着一枚硬币;右边是一个站在急救箱上的机器人,急救箱后面是一座绿色的金字塔。整体场景超现实。一只猫倒立在一个白色足球上,旁边是那只狗。一位来自NASA的宇航员举着一个写着 "Emerge " 的标志,放在机器人旁边。

显而易见,它只有一个拼写错误,可能是由于语言混合,但除此之外,所有元素都准确地表示出来了。

提示出血很少,多个主题的复杂场景保持一致性。在这一指标上,它优于Flux,并且在与Nanobanana的比较中也表现出色。

接下来是什么?

阿里巴巴计划发布两个更多的变体:用于微调的 Z-Image-Base 和用于基于指令的修改的 Z-Image-Edit。如果它们的表现与 Turbo 一样出色,开源领域将会发生剧烈变化。

目前,社区的裁决很明确:Z-Image 已经夺取了 Flux 的王冠,正如 Flux 曾经推翻 Stable Diffusion 一样。

真正的赢家将是吸引最多开发者在其基础上构建的人。

但是如果你问我们,是的,Z-Image是我们现在最喜欢的面向家庭的开源模型。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)