Fonte: CryptoNewsNet
Título Original: A Z-Image da China destrona o Flux como Rei da Arte de IA—E o Seu PC de Batata Pode Rodá-la
Link original:
Visão Geral
O Z-Image Turbo do Tongyi Lab da Alibaba, um modelo de geração de imagem com 6 mil milhões de parâmetros, foi lançado na semana passada com uma promessa simples: qualidade de ponta em hardware que você realmente possui.
Essa promessa está caindo com força. Após dias de seu lançamento, os desenvolvedores já estavam criando LoRAs—adaptações personalizadas e ajustadas—num ritmo que já supera o Flux2, um sucessor muito promovido do modelo Flux, que é extremamente popular.
O truque de festa do Z-Image é a eficiência. Enquanto concorrentes como o Flux2 exigem 24GB de VRAM no mínimo ( e até 90GB para o modelo completo ), o Z-Image funciona em configurações quantizadas com apenas 6GB.
Isso é território da RTX 2060—basicamente hardware de 2019. Dependendo da resolução, os usuários podem gerar imagens em apenas 30 segundos.
Para hobbyistas e criadores independentes, esta é uma porta que estava anteriormente trancada.
Recepção da Comunidade
A comunidade de arte AI foi rápida a elogiar o modelo.
“Isto é o que o SD3 deveria ser,” escreveu o utilizador Saruhey no CivitAI, o maior repositório do mundo de ferramentas de arte AI de código aberto. “A adesão ao prompt é bastante requintada… um modelo que pode fazer texto imediatamente é revolucionário. Este dispositivo tem o mesmo poder, senão melhor, do que o Flux, que é magia negra por si só. Os chineses estão muito à frente no jogo da IA.”
Z-Image Turbo está disponível no Civitai desde a última quinta-feira e já recebeu mais de 1.200 avaliações positivas. Para contexto, o Flux2—lançado alguns dias antes do Z-Image—tem 157.
O modelo é totalmente não censurado desde o início. Celebridades, personagens fictícios e sim, conteúdo explícito estão todos em jogo.
A partir de hoje, existem cerca de 200 recursos (finetunes, LoRAs, workflows) para o modelo apenas na Civitai, muitos dos quais são NSFW.
No Reddit, o utilizador Regular-Forever5876 testou os limites do modelo com prompts de gore e ficou atónito: “Meu Deus!!! Esta coisa entende gore AF! Gera-o perfeitamente,” escreveram.
Arquitetura Técnica
O segredo técnico por trás do Z-Image Turbo é a sua arquitetura S3-DiT—um transformer de fluxo único que processa dados de texto e imagem juntos desde o início, em vez de os fundir mais tarde. Esta integração estreita, combinada com técnicas de destilação agressivas, permite que o modelo atinja padrões de qualidade que geralmente exigem modelos cinco vezes o seu tamanho.
Testando o Modelo
Velocidade: SDXL Ritmo, Qualidade de Próxima Geração
A nove passos, o Z-Image Turbo gera imagens a uma velocidade aproximadamente igual à do SDXL, com os habituais 30 passos—um modelo que foi lançado em 2023.
A diferença é que a qualidade de saída do Z-Image corresponde ou supera a do Flux. Num laptop com uma GPU RTX 2060 com 6GB de VRAM, uma imagem levou 34 segundos.
Flux2, em comparação, leva aproximadamente dez vezes mais tempo para gerar uma imagem comparável.
Realismo: O Novo Padrão
Z-Image Turbo é o modelo de código aberto mais fotorrealista disponível atualmente para hardware de consumo. Ele supera o Flux2 de forma absoluta, e o modelo destilado base supera as afinações de realismo dedicadas do Flux.
A textura da pele e do cabelo parece detalhada e natural. O infame “queixo Flux” e a “pele plástica” estão quase desaparecidos. As proporções do corpo são consistentemente sólidas, e os LoRAs que aumentam ainda mais o realismo já estão a circular.
Geração de Texto: Finalmente, Palavras Que Funcionam
É aqui que o Z-Image realmente se destaca. É o melhor modelo de código aberto para geração de texto em imagem, apresentando um desempenho equivalente ao Nanobanana e Seedream do Google—modelos que definem o padrão atual.
Para os falantes de mandarim, o Z-Image é a escolha óbvia. Ele entende o chinês de forma nativa e renderiza os caracteres corretamente.
Dica profissional: Alguns usuários relataram que solicitar em Mandarim realmente ajuda o modelo a produzir melhores resultados, e os desenvolvedores até publicaram um “melhorador de prompt” em Mandarim.
O texto em inglês é igualmente forte, com uma exceção: palavras longas incomuns como “decentralized” podem dificultá-lo - uma limitação que o Nanobanana também partilha.
Consciência Espacial e Adesão Rápida: Excepcional
A aderência ao prompt do Z-Image é excepcional. Ele entende estilo, relações espaciais, posições e proporções com uma precisão notável.
Por exemplo, pegue este prompt:
Um cão com um chapéu vermelho em cima de uma TV mostrando as palavras “Decrypt é o melhor site de criptomoedas e inteligência artificial do mundo” na tela. À esquerda, há uma mulher loira de fato de negócios segurando uma moeda; à direita, há um robô em cima de uma caixa de primeiros socorros, e uma pirâmide verde está atrás da caixa. A cena geral é surreal. Um gato está de cabeça para baixo em cima de uma bola de futebol branca, ao lado do cão. Um astronauta da NASA segura um cartaz que diz “Emerge” e está colocado ao lado do robô.
Como é notável, houve apenas um erro de digitação, provavelmente devido à mistura de línguas, mas além disso, todos os elementos estão representados com precisão.
O sangramento de prompt é mínimo, e cenas complexas com múltiplos sujeitos permanecem coerentes. Supera o Flux nesta métrica e mantém-se firme contra o Nanobanana.
O que vem a seguir?
A Alibaba planeia lançar mais duas variantes: Z-Image-Base para ajuste fino e Z-Image-Edit para modificações baseadas em instruções. Se chegarem com o mesmo polido que o Turbo, o panorama de código aberto está prestes a mudar dramaticamente.
Por agora, o veredicto da comunidade é claro: Z-Image tomou a coroa do Flux, assim como o Flux uma vez destronou o Stable Diffusion.
O verdadeiro vencedor será aquele que atrair mais desenvolvedores para construir em cima disso.
Mas se você nos perguntasse, sim, o Z-Image é o nosso modelo de código aberto voltado para o lar favorito no momento.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
A Z-Image da China destrona o Flux como Rei da Arte de IA—E o seu PC de batata pode executá-lo
Fonte: CryptoNewsNet Título Original: A Z-Image da China destrona o Flux como Rei da Arte de IA—E o Seu PC de Batata Pode Rodá-la Link original:
Visão Geral
O Z-Image Turbo do Tongyi Lab da Alibaba, um modelo de geração de imagem com 6 mil milhões de parâmetros, foi lançado na semana passada com uma promessa simples: qualidade de ponta em hardware que você realmente possui.
Essa promessa está caindo com força. Após dias de seu lançamento, os desenvolvedores já estavam criando LoRAs—adaptações personalizadas e ajustadas—num ritmo que já supera o Flux2, um sucessor muito promovido do modelo Flux, que é extremamente popular.
O truque de festa do Z-Image é a eficiência. Enquanto concorrentes como o Flux2 exigem 24GB de VRAM no mínimo ( e até 90GB para o modelo completo ), o Z-Image funciona em configurações quantizadas com apenas 6GB.
Isso é território da RTX 2060—basicamente hardware de 2019. Dependendo da resolução, os usuários podem gerar imagens em apenas 30 segundos.
Para hobbyistas e criadores independentes, esta é uma porta que estava anteriormente trancada.
Recepção da Comunidade
A comunidade de arte AI foi rápida a elogiar o modelo.
“Isto é o que o SD3 deveria ser,” escreveu o utilizador Saruhey no CivitAI, o maior repositório do mundo de ferramentas de arte AI de código aberto. “A adesão ao prompt é bastante requintada… um modelo que pode fazer texto imediatamente é revolucionário. Este dispositivo tem o mesmo poder, senão melhor, do que o Flux, que é magia negra por si só. Os chineses estão muito à frente no jogo da IA.”
Z-Image Turbo está disponível no Civitai desde a última quinta-feira e já recebeu mais de 1.200 avaliações positivas. Para contexto, o Flux2—lançado alguns dias antes do Z-Image—tem 157.
O modelo é totalmente não censurado desde o início. Celebridades, personagens fictícios e sim, conteúdo explícito estão todos em jogo.
A partir de hoje, existem cerca de 200 recursos (finetunes, LoRAs, workflows) para o modelo apenas na Civitai, muitos dos quais são NSFW.
No Reddit, o utilizador Regular-Forever5876 testou os limites do modelo com prompts de gore e ficou atónito: “Meu Deus!!! Esta coisa entende gore AF! Gera-o perfeitamente,” escreveram.
Arquitetura Técnica
O segredo técnico por trás do Z-Image Turbo é a sua arquitetura S3-DiT—um transformer de fluxo único que processa dados de texto e imagem juntos desde o início, em vez de os fundir mais tarde. Esta integração estreita, combinada com técnicas de destilação agressivas, permite que o modelo atinja padrões de qualidade que geralmente exigem modelos cinco vezes o seu tamanho.
Testando o Modelo
Velocidade: SDXL Ritmo, Qualidade de Próxima Geração
A nove passos, o Z-Image Turbo gera imagens a uma velocidade aproximadamente igual à do SDXL, com os habituais 30 passos—um modelo que foi lançado em 2023.
A diferença é que a qualidade de saída do Z-Image corresponde ou supera a do Flux. Num laptop com uma GPU RTX 2060 com 6GB de VRAM, uma imagem levou 34 segundos.
Flux2, em comparação, leva aproximadamente dez vezes mais tempo para gerar uma imagem comparável.
Realismo: O Novo Padrão
Z-Image Turbo é o modelo de código aberto mais fotorrealista disponível atualmente para hardware de consumo. Ele supera o Flux2 de forma absoluta, e o modelo destilado base supera as afinações de realismo dedicadas do Flux.
A textura da pele e do cabelo parece detalhada e natural. O infame “queixo Flux” e a “pele plástica” estão quase desaparecidos. As proporções do corpo são consistentemente sólidas, e os LoRAs que aumentam ainda mais o realismo já estão a circular.
Geração de Texto: Finalmente, Palavras Que Funcionam
É aqui que o Z-Image realmente se destaca. É o melhor modelo de código aberto para geração de texto em imagem, apresentando um desempenho equivalente ao Nanobanana e Seedream do Google—modelos que definem o padrão atual.
Para os falantes de mandarim, o Z-Image é a escolha óbvia. Ele entende o chinês de forma nativa e renderiza os caracteres corretamente.
Dica profissional: Alguns usuários relataram que solicitar em Mandarim realmente ajuda o modelo a produzir melhores resultados, e os desenvolvedores até publicaram um “melhorador de prompt” em Mandarim.
O texto em inglês é igualmente forte, com uma exceção: palavras longas incomuns como “decentralized” podem dificultá-lo - uma limitação que o Nanobanana também partilha.
Consciência Espacial e Adesão Rápida: Excepcional
A aderência ao prompt do Z-Image é excepcional. Ele entende estilo, relações espaciais, posições e proporções com uma precisão notável.
Por exemplo, pegue este prompt:
Como é notável, houve apenas um erro de digitação, provavelmente devido à mistura de línguas, mas além disso, todos os elementos estão representados com precisão.
O sangramento de prompt é mínimo, e cenas complexas com múltiplos sujeitos permanecem coerentes. Supera o Flux nesta métrica e mantém-se firme contra o Nanobanana.
O que vem a seguir?
A Alibaba planeia lançar mais duas variantes: Z-Image-Base para ajuste fino e Z-Image-Edit para modificações baseadas em instruções. Se chegarem com o mesmo polido que o Turbo, o panorama de código aberto está prestes a mudar dramaticamente.
Por agora, o veredicto da comunidade é claro: Z-Image tomou a coroa do Flux, assim como o Flux uma vez destronou o Stable Diffusion.
O verdadeiro vencedor será aquele que atrair mais desenvolvedores para construir em cima disso.
Mas se você nos perguntasse, sim, o Z-Image é o nosso modelo de código aberto voltado para o lar favorito no momento.