Escanea para descargar la aplicación Gate
qrCode
Más opciones de descarga
No volver a recordar hoy

La Z-Image de China destrona a Flux como rey del arte AI—y tu PC de papa puede ejecutarlo

image

Fuente: CryptoNewsNet Título original: La Z-Image de China destrona a Flux como rey del arte AI—Y tu PC de patata puede ejecutarlo Enlace original:

Visión general

El Z-Image Turbo de Tongyi Lab de Alibaba, un modelo de generación de imágenes de 6 mil millones de parámetros, se lanzó la semana pasada con una simple promesa: calidad de última generación en hardware que realmente posees.

Esa promesa está aterrizando con fuerza. A pocos días de su lanzamiento, los desarrolladores han estado creando LoRAs—adaptaciones personalizadas afinadas—con una velocidad que ya supera a Flux2, un sucesor muy promocionado del modelo Flux, que fue extremadamente popular.

El truco de fiesta de Z-Image es la eficiencia. Mientras que competidores como Flux2 exigen un mínimo de 24GB de VRAM ( y hasta 90GB para el modelo completo ), Z-Image funciona en configuraciones cuantizadas con tan solo 6GB.

Eso es territorio de RTX 2060—básicamente hardware de 2019. Dependiendo de la resolución, los usuarios pueden generar imágenes en tan solo 30 segundos.

Para los aficionados y creadores independientes, esta es una puerta que antes estaba cerrada.

Recepción de la Comunidad

La comunidad de arte AI fue rápida en alabar el modelo.

“Esto es lo que se suponía que debía ser SD3,” escribió el usuario Saruhey en CivitAI, el repositorio de herramientas de arte AI de código abierto más grande del mundo. “La adherencia al prompt es bastante exquisita… un modelo que puede hacer texto de inmediato es un cambio de juego. Este tiene el mismo, si no mejor, poder que Flux, que es magia negra por sí sola. Los chinos están muy por delante en el juego de la IA.”

Z-Image Turbo ha estado disponible en Civitai desde el jueves pasado y ya ha recibido más de 1,200 reseñas positivas. Para contexto, Flux2—lanzado unos días antes que Z-Image—tiene 157.

El modelo está completamente sin censura desde cero. Celebridades, personajes de ficción y sí, contenido explícito están todos sobre la mesa.

A partir de hoy, hay alrededor de 200 recursos (finetunes, LoRAs, workflows) para el modelo solo en Civitai, muchos de los cuales son NSFW.

En Reddit, el usuario Regular-Forever5876 probó los límites del modelo con prompts de gore y quedó atónito: “¡Vaya!!! Esta cosa entiende el gore AF! Lo genera a la perfección,” escribieron.

Arquitectura Técnica

El secreto técnico detrás de Z-Image Turbo es su arquitectura S3-DiT: un transformador de flujo único que procesa datos de texto e imagen juntos desde el principio, en lugar de fusionarlos más tarde. Esta integración estrecha, combinada con técnicas de destilación agresivas, permite que el modelo cumpla con los estándares de calidad que normalmente requieren modelos cinco veces más grandes.

Probando el Modelo

Velocidad: SDXL Ritmo, Calidad de Nueva Generación

A nueve pasos, Z-Image Turbo genera imágenes a aproximadamente la misma velocidad que SDXL, con los habituales 30 pasos—un modelo que se lanzó en 2023.

La diferencia es que la calidad de salida de Z-Image iguala o supera a la de Flux. En una laptop con una GPU RTX 2060 con 6GB de VRAM, una imagen tardó 34 segundos.

Flux2, en comparación, tarda aproximadamente diez veces más en generar una imagen comparable.

Realismo: El Nuevo Referente

Z-Image Turbo es el modelo de código abierto más fotorrealista disponible en este momento para hardware de consumo. Supera a Flux2 de manera contundente, y el modelo base destilado supera a los ajustes de realismo dedicados de Flux.

La textura de la piel y el cabello se ve detallada y natural. La infame “barbilla de Flux” y “piel de plástico” han desaparecido en su mayoría. Las proporciones del cuerpo son consistentemente sólidas, y los LoRAs que mejoran aún más el realismo ya están circulando.

Generación de Texto: Finalmente, Palabras Que Funcionan

Aquí es donde Z-Image realmente brilla. Es el mejor modelo de código abierto para la generación de texto en imágenes, rindiendo al mismo nivel que el Nanobanana y Seedream de Google, modelos que establecen el estándar actual.

Para los hablantes de mandarín, Z-Image es la opción obvia. Entiende el chino de forma nativa y renderiza los caracteres correctamente.

Consejo profesional: Algunos usuarios han informado que dar instrucciones en mandarín realmente ayuda al modelo a producir mejores resultados, e incluso los desarrolladores publicaron un “mejorador de instrucciones” en mandarín.

El texto en inglés es igualmente fuerte, con una excepción: palabras largas poco comunes como “descentralizado” pueden dificultarlo, una limitación que también comparte Nanobanana.

Conciencia Espacial y Adherencia Rápida: Excepcional

La adherencia a las indicaciones de Z-Image es excepcional. Entiende el estilo, las relaciones espaciales, las posiciones y las proporciones con una precisión notable.

Por ejemplo, toma este aviso:

Un perro con un sombrero rojo de pie sobre un televisor que muestra las palabras “Decrypt es el mejor sitio web de criptomonedas e inteligencia artificial del mundo” en la pantalla. A la izquierda, hay una mujer rubia en un traje de negocios sosteniendo una moneda; a la derecha, hay un robot de pie sobre una caja de primeros auxilios, y una pirámide verde se encuentra detrás de la caja. El paisaje en general es surrealista. Un gato está de pie al revés sobre una pelota de fútbol blanca, al lado del perro. Un astronauta de la NASA sostiene un cartel que dice “Emerge” y está colocado al lado del robot.

Como es notable, solo tenía un error tipográfico, probablemente debido a la mezcla de idiomas, pero aparte de eso, todos los elementos están representados con precisión.

El sangrado del aviso es mínimo y las escenas complejas con múltiples sujetos permanecen coherentes. Supera a Flux en este aspecto y se sostiene frente a Nanobanana.

¿Qué sigue?

Alibaba planea lanzar dos variantes más: Z-Image-Base para ajuste fino y Z-Image-Edit para modificaciones basadas en instrucciones. Si llegan con el mismo nivel de pulido que Turbo, el panorama de código abierto está a punto de cambiar drásticamente.

Por ahora, el veredicto de la comunidad es claro: Z-Image ha tomado la corona de Flux, al igual que Flux una vez destronó a Stable Diffusion.

El verdadero ganador será quien atraiga a más desarrolladores para construir sobre ello.

Pero si nos preguntas, sí, Z-Image es nuestro modelo de código abierto orientado a hogares favorito en este momento.

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)