Отсканируйте, чтобы загрузить приложение Gate
qrCode
Больше вариантов загрузки
Не напоминай мне больше сегодня.

Китайский Z-Image сверг Flux с трона в мире искусственного интеллекта — и ваш картофельный ПК может это запустить

image

Источник: CryptoNewsNet Оригинальное название: Z-Image из Китая сверг Flux с трона короля AI-искусства — и ваш картофельный ПК сможет его запустить Оригинальная ссылка:

Обзор

Лаборатория Tongyi Lab Alibaba представила Turbo Z-Image, модель генерации изображений с 6 миллиардами параметров, на прошлой неделе с простым обещанием: качество на уровне лучших образцов на оборудовании, которым вы действительно владеете.

Это обещание сильно сказывается. Спустя всего несколько дней после его выхода, разработчики начали выпускать LoRA — пользовательские адаптации с тонкой настройкой — с темпом, который уже превосходит Flux2, многообещающего преемника чрезвычайно популярной модели Flux.

Фокус Z-Image заключается в эффективности. В то время как такие конкуренты, как Flux2, требуют минимум 24 ГБ видеопамяти ( и до 90 ГБ для полной модели ), Z-Image работает на квантизированных установках с минимум 6 ГБ.

Это территория RTX 2060 — в основном оборудование 2019 года. В зависимости от разрешения пользователи могут генерировать изображения всего за 30 секунд.

Для любителей и независимых создателей, это дверь, которая ранее была заперта.

Общественный прием

Сообщество искусственного интеллекта в искусстве быстро оценило модель.

“Вот что должно было быть SD3,” написал пользователь Saruhey на CivitAI, крупнейшем в мире репозитории инструментов для создания искусственного интеллекта с открытым исходным кодом. “Соблюдение подсказок довольно изысканное… модель, которая может выполнять текст сразу, меняет правила игры. Это устройство обладает такой же, если не лучшей, мощностью, чем Flux, который сам по себе - черная магия. Китайцы значительно опережают остальных в игре с ИИ.”

Z-Image Turbo доступен на Civitai с прошлой четверга и уже получил более 1,200 положительных отзывов. Для справки, Flux2 — выпущенный за несколько дней до Z-Image — имеет 157.

Модель полностью неконтролируемая с нуля. Знаменитости, вымышленные персонажи и да, откровенный контент – все это возможно.

На сегодняшний день на Civitai есть около 200 ресурсов (finetunes, LoRAs, workflows) для модели, многие из которых являются NSFW.

На Reddit пользователь Regular-Forever5876 протестировал пределы модели с запросами на жестокость и остался в шоке: “Святой корова!!! Эта штука понимает жестокость AF! Она генерирует это безупречно,” - написали они.

Техническая архитектура

Технический секрет Z-Image Turbo заключается в его архитектуре S3-DiT — однопоточном трансформере, который обрабатывает текстовые и изображенческие данные вместе с самого начала, а не объединяет их позже. Эта тесная интеграция, в сочетании с агрессивными техниками дистилляции, позволяет модели соответствовать качественным стандартам, которые обычно требуют моделей в пять раз большего размера.

Тестирование модели

Скорость: SDXL Темп, Качество следующего поколения

На девяти шагах Z-Image Turbo генерирует изображения примерно с такой же скоростью, как SDXL, при обычных 30 шагах — модели, которая была выпущена в 2023 году.

Разница в том, что качество вывода Z-Image сопоставимо с Flux или превосходит его. На ноутбуке с GPU RTX 2060 с 6 ГБ видеопамяти одно изображение заняло 34 секунды.

Flux2, в сравнении, требует примерно в десять раз больше времени для генерации сопоставимого изображения.

Реализм: Новый Бенчмарк

Z-Image Turbo - это самая фотореалистичная открытая модель, доступная в настоящее время для потребительского оборудования. Она однозначно превосходит Flux2, а базовая дистиллированная модель превосходит специальные настройки реализма Flux.

Текстура кожи и волос выглядит детализированной и естественной. Печально известный “подбородок Флукса” и “пластиковая кожа” в основном исчезли. Пропорции тела последовательно хороши, а LoRAs, которые еще больше усиливают реализм, уже циркулируют.

Генерация текста: Наконец, слова, которые работают

Вот где Z-Image действительно выделяется. Это лучшая модель с открытым исходным кодом для генерации текста в изображениях, показывающая результаты на уровне Google Nanobanana и Seedream — моделей, которые установили текущий стандарт.

Для носителей мандаринского диалекта Z-Image является очевидным выбором. Он понимает китайский язык на родном уровне и корректно отображает символы.

Совет: Некоторые пользователи сообщили, что использование подсказок на мандарине действительно помогает модели выдавать лучшие результаты, и разработчики даже опубликовали “улучшитель подсказок” на мандарине.

Английский текст также силен, за исключением одного: необычные длинные слова, такие как “децентрализованный”, могут его запутать — это ограничение также характерно для Nanobanana.

Пространственное восприятие и своевременное соблюдение: выдающийся

Соблюдение подсказок Z-Image выдающееся. Он понимает стиль, пространственные отношения, позиции и пропорции с замечательной точностью.

Например, возьмите этот запрос:

Собака в красной шляпе стоит на телевизоре, на экране которого написано “Decrypt 是世界上最好的加密货币与人工智能媒体网站”. Слева blonde женщина в деловом костюме держит монету; справа робот стоит на аптечке, а за коробкой стоит зеленая пирамида. Общая сцена сюрреалистична. Кот стоит вверх ногами на белом футбольном мяче, рядом с собакой. Астронавт из NASA держит знак с надписью “Emerge” и стоит рядом с роботом.

Как видно, в тексте была только одна опечатка, вероятно, из-за смешения языков, но кроме этого все элементы точно представлены.

Проблема с размытием минимальна, и сложные сцены с несколькими объектами остаются согласованными. Это превосходит Flux по этому показателю и сопоставимо с Nanobanana.

Что дальше?

Alibaba планирует выпустить еще два варианта: Z-Image-Base для дообучения и Z-Image-Edit для модификаций на основе инструкций. Если они выйдут с такой же отделкой, как Turbo, открытый ландшафт вскоре изменится кардинально.

На данный момент вердикт сообщества ясен: Z-Image завоевал корону Flux, как когда-то Flux лишил трона Stable Diffusion.

Настоящим победителем станет тот, кто привлечёт больше всего разработчиков для создания поверх этого.

Но если бы вы спросили нас, да, Z-Image в настоящее время является нашей любимой домашней открытой моделью.

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Горячее на Gate FunПодробнее
  • РК:$0.1Держатели:2
    0.99%
  • РК:$3.72KДержатели:1
    1.06%
  • РК:$3.65KДержатели:1
    0.73%
  • РК:$4.05KДержатели:4
    0.23%
  • РК:$3.9KДержатели:3
    0.20%
  • Закрепить