Скануйте, щоб завантажити додаток Gate
qrCode
Більше варіантів завантаження
Не нагадувати сьогодні

"Z-Image" з Китаю скидає "Flux" з трону як короля штучного інтелекту в мистецтві — і ваш картопляний ПК може це запустити.

image

Джерело: CryptoNewsNet Оригінальна назва: Z-Image з Китаю скидає Flux з трону як короля AI-мистецтва — і ваш картопляний ПК може його запустити Оригінальне посилання:

Огляд

Лабораторія Tongyi Lab компанії Alibaba представила Z-Image Turbo, модель генерації зображень з 6 мільярдами параметрів, яка вийшла минулого тижня з простим обіцянкою: передова якість на апаратному забезпеченні, яке ви насправді володієте.

Ця обіцянка виконується важко. Через кілька днів після її виходу розробники почали випускати LoRA - спеціально налаштовані адаптації - з темпом, який вже перевищує Flux2, сильно розрекламованого наступника надзвичайно популярної моделі Flux.

Фішка Z-Image – це ефективність. Хоча конкуренти, такі як Flux2, вимагають мінімум 24 ГБ VRAM ( і до 90 ГБ для повної моделі ), Z-Image працює на квантизованих налаштуваннях з всього 6 ГБ.

Це територія RTX 2060 — фактично апаратне забезпечення з 2019 року. В залежності від роздільної здатності, користувачі можуть генерувати зображення всього за 30 секунд.

Для хобістів та незалежних творців це двері, які раніше були зачинені.

Спільнота

Спільнота AI-мистецтва швидко похвалила модель.

“Це те, чим мав бути SD3,” написав користувач Saruhey на CivitAI, найбільшій у світі репозиторії відкритих інструментів для AI-арту. “Дотримання підказок просто вражаюче… модель, яка може працювати з текстом одразу, змінює правила гри. Це має таку ж, якщо не кращу, силу, ніж Flux, яка є чорної магії сама по собі. Китайці значно випереджають у грі AI.”

Z-Image Turbo був доступний на Civitai з минулого четверга і вже отримав понад 1 200 позитивних відгуків. Для контексту, Flux2 — випущений кілька днів до Z-Image — має 157.

Модель повністю нецензурована з нуля. Знаменитості, вигадані персонажі і так, явний контент - все це можливо.

Станом на сьогодні, на Civitai є близько 200 ресурсів (finetunes, LoRAs, workflows) для моделі, багато з яких є NSFW.

На Reddit користувач Regular-Forever5876 перевірив межі моделі з жахливими запитами і залишився враженим: “Святі корови!!! Ця штука розуміє жахи на 100%! Вона генерує їх бездоганно,” - написав він.

Технічна архітектура

Технічний секрет Z-Image Turbo полягає в його архітектурі S3-DiT — трансформер однієї стрічки, який обробляє текстові та зображення дані разом з самого початку, а не об'єднує їх пізніше. Ця тісна інтеграція, в поєднанні з агресивними технологіями дистиляції, дозволяє моделі досягати стандартів якості, які зазвичай вимагають моделей у п'ять разів більшого розміру.

Тестування моделі

Швидкість: SDXL Темп, Якість наступного покоління

На дев'яти кроках Z-Image Turbo генерує зображення приблизно такою ж швидкістю, як SDXL, з звичайними 30 кроками — моделлю, яка була випущена в 2023 році.

Різниця полягає в тому, що якість виходу Z-Image відповідає або перевершує Flux. На ноутбуці з графічною картою RTX 2060 з 6 ГБ VRAM одне зображення зайняло 34 секунди.

Flux2, у порівнянні, займає приблизно в десять разів більше часу для створення порівнянного зображення.

Реалізм: Нова еталон

Z-Image Turbo є найбільш фотореалістичною відкритою моделлю, доступною прямо зараз для споживчого обладнання. Вона перевершує Flux2 беззаперечно, а базова дистильована модель перевершує спеціалізовані налаштування реалістичності Flux.

Текстура шкіри та волосся виглядає детально та природно. Неприємна “підборіддя Flux” та “пластикова шкіра” майже зникли. Пропорції тіла постійно міцні, а LoRA, що підсилюють реалістичність ще більше, вже циркулюють.

Генерація тексту: Нарешті, слова, які працюють

Ось де Z-Image справді блищить. Це найкраща відкрита модель для генерації тексту в зображеннях, яка працює на одному рівні з Nanobanana і Seedream від Google — моделями, які встановлюють сучасний стандарт.

Для носіїв мандаринської мови Z-Image є очевидним вибором. Він розуміє китайську мову на рідному рівні та правильно відображає символи.

Порада: Деякі користувачі повідомили, що запитування китайською мовою насправді допомагає моделі генерувати кращі результати, а розробники навіть опублікували “покращувач запитів” китайською.

Англійський текст є однаково сильним, з одним винятком: незвичайні довгі слова, такі як “децентралізований”, можуть його підвести — обмеження, яке також має Nanobanana.

Просторове усвідомлення та швидке дотримання: винятковий

Відповідність запиту Z-Image є видатною. Він розуміє стиль, просторові відносини, позиції та пропорції з вражаючою точністю.

Наприклад, візьміть цей запит:

Собака в червоному капелюсі стоїть на телевізорі, на якому видно слова “Decrypt є найкращим криптовалютним та штучно-інтелектуальним медіа-сайтом”. Зліва blonde жінка в діловому костюмі тримає монету; праворуч робот стоїть на медичному ящику, а за ящиком стоїть зелена піраміда. Загальна сцена є сюрреалістичною. Кіт стоїть догори ногами на білому футбольному м'ячі, поряд із собакою. Космонавт з NASA тримає знак, на якому написано “Emerge”, і він розташований поруч із роботом.

Як видно, в ньому була лише одна помилка, ймовірно, через змішання мов, але, крім цього, всі елементи точно представлені.

Кровотеча під час виконання запитів є мінімальною, а складні сцени з кількома об'єктами залишаються зрозумілими. Це перевершує Flux за цим показником і тримається на рівні з Nanobanana.

Що далі?

Alibaba планує випустити ще два варіанти: Z-Image-Base для доопрацювання та Z-Image-Edit для модифікацій на основі інструкцій. Якщо вони вийдуть з такою ж досконалістю, як Turbo, відкритий ландшафт програмного забезпечення кардинально зміниться.

На даний момент вирок спільноти ясний: Z-Image забрав корону у Flux, так само як Flux колись скинув Stable Diffusion.

Справжнім переможцем буде той, хто залучить найбільше розробників для побудови на його основі.

Але якщо ви запитаєте нас, так, Z-Image є нашою улюбленою домашньою орієнтованою відкритою моделлю на даний момент.

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити