Source : CryptoNewsNet
Titre original : L'image Z de la Chine détrône Flux en tant que roi de l'art IA—et votre PC de pomme de terre peut le faire fonctionner
Lien original :
Aperçu
Le Z-Image Turbo du Tongyi Lab d'Alibaba, un modèle de génération d'images de 6 milliards de paramètres, a été lancé la semaine dernière avec une promesse simple : une qualité de pointe sur du matériel que vous possédez réellement.
Cette promesse a un impact fort. Quelques jours après sa sortie, les développeurs avaient déjà commencé à produire des LoRAs—des adaptations personnalisées et ajustées—à un rythme qui dépasse déjà celui de Flux2, un successeur très médiatisé du modèle Flux, extrêmement populaire.
Le tour de force de Z-Image est l'efficacité. Alors que des concurrents comme Flux2 exigent un minimum de 24 Go de VRAM ( et jusqu'à 90 Go pour le modèle complet ), Z-Image fonctionne sur des configurations quantifiées avec aussi peu que 6 Go.
C'est le territoire de la RTX 2060—essentiellement du matériel de 2019. Selon la résolution, les utilisateurs peuvent générer des images en aussi peu que 30 secondes.
Pour les amateurs et les créateurs indépendants, c'est une porte qui était auparavant fermée.
Réception de la communauté
La communauté artistique IA a rapidement loué le modèle.
“C'est ce que SD3 aurait dû être,” a écrit l'utilisateur Saruhey sur CivitAI, le plus grand dépôt d'outils d'art IA open source au monde. “L'adhérence au prompt est plutôt exquise… un modèle qui peut traiter le texte immédiatement est révolutionnaire. Ce truc a la même puissance, sinon meilleure, que Flux, qui est de la magie noire à lui seul. Les Chinois sont en avance dans le jeu de l'IA.”
Z-Image Turbo est disponible sur Civitai depuis jeudi dernier et a déjà reçu plus de 1 200 avis positifs. Pour contextualiser, Flux2—sorti quelques jours avant Z-Image—en a 157.
Le modèle est entièrement non censuré depuis le début. Célébrités, personnages fictifs, et oui, le contenu explicite sont tous sur la table.
À ce jour, il y a environ 200 ressources (finetunes, LoRAs, workflows) pour le modèle uniquement sur Civitai, dont beaucoup sont NSFW.
Sur Reddit, l'utilisateur Regular-Forever5876 a testé les limites du modèle avec des prompts gore et est ressorti stupéfait : “Mon dieu !!! Cette chose comprend le gore AF ! Elle le génère à la perfection,” ont-ils écrit.
Architecture Technique
Le secret technique derrière Z-Image Turbo est son architecture S3-DiT : un transformateur à flux unique qui traite les données textuelles et d'image ensemble dès le départ, plutôt que de les fusionner par la suite. Cette intégration étroite, combinée à des techniques de distillation agressives, permet au modèle d'atteindre des normes de qualité qui nécessitent habituellement des modèles cinq fois plus grands.
Tester le modèle
Vitesse : SDXL Tempo, Qualité de Nouvelle Génération
À neuf étapes, Z-Image Turbo génère des images à peu près à la même vitesse que SDXL, avec les habituelles 30 étapes—un modèle qui a été lancé en 2023.
La différence est que la qualité de sortie de Z-Image correspond ou dépasse celle de Flux. Sur un ordinateur portable avec un GPU RTX 2060 avec 6 Go de VRAM, une image a pris 34 secondes.
Flux2, en comparaison, prend environ dix fois plus de temps pour générer une image comparable.
Réalisme : La nouvelle référence
Z-Image Turbo est le modèle open-source le plus photoréaliste disponible actuellement pour le matériel grand public. Il bat Flux2 à plate couture, et le modèle de base distillé surpasse les ajustements de réalisme dédiés de Flux.
La texture de la peau et des cheveux semble détaillée et naturelle. La célèbre “mâchoire Flux” et la “peau en plastique” sont principalement disparues. Les proportions du corps sont constamment solides, et les LoRAs qui améliorent encore plus le réalisme circulent déjà.
Génération de texte : Enfin, des mots qui fonctionnent
C'est ici que Z-Image brille vraiment. C'est le meilleur modèle open-source pour la génération de texte dans les images, performants au même niveau que le Nanobanana et le Seedream de Google—des modèles qui définissent la norme actuelle.
Pour les locuteurs mandarin, Z-Image est le choix évident. Il comprend le chinois nativement et rend les caractères correctement.
Astuce pro : Certains utilisateurs ont rapporté que formuler des demandes en mandarin aide en réalité le modèle à produire de meilleurs résultats, et les développeurs ont même publié un “améliorateur de prompt” en mandarin.
Le texte anglais est également fort, avec une exception : des mots longs peu courants comme “décentralisé” peuvent le faire trébucher - une limitation partagée par Nanobanana aussi.
Conscience spatiale et respect des délais : exceptionnel
L'adhérence aux instructions de Z-Image est exceptionnelle. Il comprend le style, les relations spatiales, les positions et les proportions avec une précision remarquable.
Par exemple, prenez cette invite :
Un chien avec un chapeau rouge se tenant sur le dessus d'une télévision affichant les mots “Decrypt 是世界上最好的加密货币与人工智能媒体网站” sur l'écran. À gauche, il y a une femme blonde en costume d'affaires tenant une pièce; à droite, il y a un robot se tenant sur le dessus d'une boîte de premiers secours, et une pyramide verte se trouve derrière la boîte. L'ensemble du paysage est surréaliste. Un chat est debout à l'envers sur un ballon de football blanc, à côté du chien. Un astronaute de la NASA tient un panneau indiquant “Emerge” et est placé à côté du robot.
Il est évident qu'il n'y avait qu'une seule faute de frappe, probablement à cause du mélange des langues, mais à part cela, tous les éléments sont représentés avec précision.
Les fuites d'invite sont minimales, et les scènes complexes avec plusieurs sujets restent cohérentes. Cela surpasse Flux sur ce critère et se défend face à Nanobanana.
Qu'est-ce qui vient ensuite ?
Alibaba prévoit de lancer deux autres variantes : Z-Image-Base pour le fine-tuning, et Z-Image-Edit pour des modifications basées sur des instructions. S'ils arrivent avec le même niveau de finition que Turbo, le paysage open-source est sur le point de changer radicalement.
Pour l'instant, le verdict de la communauté est clair : Z-Image a pris la couronne de Flux, tout comme Flux a autrefois détrôné Stable Diffusion.
Le véritable gagnant sera celui qui attirera le plus de développeurs pour construire dessus.
Mais si vous nous demandiez, oui, Z-Image est notre modèle open source orienté maison préféré en ce moment.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
L'image Z de la Chine détrône Flux en tant que roi de l'art AI—et votre PC de pommes de terre peut l'exécuter.
Source : CryptoNewsNet Titre original : L'image Z de la Chine détrône Flux en tant que roi de l'art IA—et votre PC de pomme de terre peut le faire fonctionner Lien original :
Aperçu
Le Z-Image Turbo du Tongyi Lab d'Alibaba, un modèle de génération d'images de 6 milliards de paramètres, a été lancé la semaine dernière avec une promesse simple : une qualité de pointe sur du matériel que vous possédez réellement.
Cette promesse a un impact fort. Quelques jours après sa sortie, les développeurs avaient déjà commencé à produire des LoRAs—des adaptations personnalisées et ajustées—à un rythme qui dépasse déjà celui de Flux2, un successeur très médiatisé du modèle Flux, extrêmement populaire.
Le tour de force de Z-Image est l'efficacité. Alors que des concurrents comme Flux2 exigent un minimum de 24 Go de VRAM ( et jusqu'à 90 Go pour le modèle complet ), Z-Image fonctionne sur des configurations quantifiées avec aussi peu que 6 Go.
C'est le territoire de la RTX 2060—essentiellement du matériel de 2019. Selon la résolution, les utilisateurs peuvent générer des images en aussi peu que 30 secondes.
Pour les amateurs et les créateurs indépendants, c'est une porte qui était auparavant fermée.
Réception de la communauté
La communauté artistique IA a rapidement loué le modèle.
“C'est ce que SD3 aurait dû être,” a écrit l'utilisateur Saruhey sur CivitAI, le plus grand dépôt d'outils d'art IA open source au monde. “L'adhérence au prompt est plutôt exquise… un modèle qui peut traiter le texte immédiatement est révolutionnaire. Ce truc a la même puissance, sinon meilleure, que Flux, qui est de la magie noire à lui seul. Les Chinois sont en avance dans le jeu de l'IA.”
Z-Image Turbo est disponible sur Civitai depuis jeudi dernier et a déjà reçu plus de 1 200 avis positifs. Pour contextualiser, Flux2—sorti quelques jours avant Z-Image—en a 157.
Le modèle est entièrement non censuré depuis le début. Célébrités, personnages fictifs, et oui, le contenu explicite sont tous sur la table.
À ce jour, il y a environ 200 ressources (finetunes, LoRAs, workflows) pour le modèle uniquement sur Civitai, dont beaucoup sont NSFW.
Sur Reddit, l'utilisateur Regular-Forever5876 a testé les limites du modèle avec des prompts gore et est ressorti stupéfait : “Mon dieu !!! Cette chose comprend le gore AF ! Elle le génère à la perfection,” ont-ils écrit.
Architecture Technique
Le secret technique derrière Z-Image Turbo est son architecture S3-DiT : un transformateur à flux unique qui traite les données textuelles et d'image ensemble dès le départ, plutôt que de les fusionner par la suite. Cette intégration étroite, combinée à des techniques de distillation agressives, permet au modèle d'atteindre des normes de qualité qui nécessitent habituellement des modèles cinq fois plus grands.
Tester le modèle
Vitesse : SDXL Tempo, Qualité de Nouvelle Génération
À neuf étapes, Z-Image Turbo génère des images à peu près à la même vitesse que SDXL, avec les habituelles 30 étapes—un modèle qui a été lancé en 2023.
La différence est que la qualité de sortie de Z-Image correspond ou dépasse celle de Flux. Sur un ordinateur portable avec un GPU RTX 2060 avec 6 Go de VRAM, une image a pris 34 secondes.
Flux2, en comparaison, prend environ dix fois plus de temps pour générer une image comparable.
Réalisme : La nouvelle référence
Z-Image Turbo est le modèle open-source le plus photoréaliste disponible actuellement pour le matériel grand public. Il bat Flux2 à plate couture, et le modèle de base distillé surpasse les ajustements de réalisme dédiés de Flux.
La texture de la peau et des cheveux semble détaillée et naturelle. La célèbre “mâchoire Flux” et la “peau en plastique” sont principalement disparues. Les proportions du corps sont constamment solides, et les LoRAs qui améliorent encore plus le réalisme circulent déjà.
Génération de texte : Enfin, des mots qui fonctionnent
C'est ici que Z-Image brille vraiment. C'est le meilleur modèle open-source pour la génération de texte dans les images, performants au même niveau que le Nanobanana et le Seedream de Google—des modèles qui définissent la norme actuelle.
Pour les locuteurs mandarin, Z-Image est le choix évident. Il comprend le chinois nativement et rend les caractères correctement.
Astuce pro : Certains utilisateurs ont rapporté que formuler des demandes en mandarin aide en réalité le modèle à produire de meilleurs résultats, et les développeurs ont même publié un “améliorateur de prompt” en mandarin.
Le texte anglais est également fort, avec une exception : des mots longs peu courants comme “décentralisé” peuvent le faire trébucher - une limitation partagée par Nanobanana aussi.
Conscience spatiale et respect des délais : exceptionnel
L'adhérence aux instructions de Z-Image est exceptionnelle. Il comprend le style, les relations spatiales, les positions et les proportions avec une précision remarquable.
Par exemple, prenez cette invite :
Il est évident qu'il n'y avait qu'une seule faute de frappe, probablement à cause du mélange des langues, mais à part cela, tous les éléments sont représentés avec précision.
Les fuites d'invite sont minimales, et les scènes complexes avec plusieurs sujets restent cohérentes. Cela surpasse Flux sur ce critère et se défend face à Nanobanana.
Qu'est-ce qui vient ensuite ?
Alibaba prévoit de lancer deux autres variantes : Z-Image-Base pour le fine-tuning, et Z-Image-Edit pour des modifications basées sur des instructions. S'ils arrivent avec le même niveau de finition que Turbo, le paysage open-source est sur le point de changer radicalement.
Pour l'instant, le verdict de la communauté est clair : Z-Image a pris la couronne de Flux, tout comme Flux a autrefois détrôné Stable Diffusion.
Le véritable gagnant sera celui qui attirera le plus de développeurs pour construire dessus.
Mais si vous nous demandiez, oui, Z-Image est notre modèle open source orienté maison préféré en ce moment.