المصدر: CryptoNewsNet
العنوان الأصلي: صورة Z الصينية تزيح فلوكس عن عرش فنون الذكاء الاصطناعي - ويمكن لجهاز الكمبيوتر الخاص بك الذي يشبه البطاطس تشغيله
الرابط الأصلي:
نظرة عامة
تم إطلاق نموذج توليد الصور Z-Image Turbo من مختبر Tongyi التابع لـ Alibaba، والذي يحتوي على 6 مليارات معلمة، الأسبوع الماضي مع وعد بسيط: جودة من الطراز الأول على الأجهزة التي تمتلكها بالفعل.
ذاك الوعد يحقق نتائج قوية. بعد أيام من إصداره، كان المطورون يقومون بإنتاج LoRAs - تعديلات مخصصة مُعدلة بدقة - بمعدل يتجاوز بالفعل Flux2، الخليفة المبالغ في الترويج له لنموذج Flux الشهير.
يعتبر خدعة ز-إيمج هي الكفاءة. بينما تتطلب المنافسين مثل Flux2 حد أدنى من 24 جيجابايت من VRAM و حتى 90 جيجابايت للنموذج الكامل (، يعمل ز-إيمج على إعدادات مقيسة بقدر قليل يصل إلى 6 جيجابايت.
هذه منطقة RTX 2060 - أساسًا أجهزة من عام 2019. اعتمادًا على الدقة، يمكن للمستخدمين إنشاء صور في غضون 30 ثانية فقط.
بالنسبة للهواة والمبدعين المستقلين، هذه باب كان مغلقًا سابقًا.
استقبال المجتمع
كانت مجتمع فنون الذكاء الاصطناعي سريعًا في مدح النموذج.
“هذا ما كان من المفترض أن يكون عليه SD3,” كتب المستخدم Saruhey على CivitAI، أكبر مستودع في العالم لأدوات فنون الذكاء الاصطناعي مفتوحة المصدر. “الامتثال للتوجيهات رائع للغاية… نموذج يمكنه التعامل مع النص على الفور هو تغيير قواعد اللعبة. هذا الشيء يمتلك نفس القوة، إن لم يكن أفضل، مما تمتلكه Flux، وهو سحر أسود بحد ذاته. الصينيون متقدمون جداً في لعبة الذكاء الاصطناعي.”
تتوفر Z-Image Turbo على Civitai منذ الخميس الماضي وقد حصلت بالفعل على أكثر من 1,200 تقييم إيجابي. للتوضيح، Flux2 - التي تم إصدارها قبل Z-Image بعدة أيام - حصلت على 157.
النموذج غير خاضع للرقابة بالكامل من الصفر. المشاهير، الشخصيات الخيالية، ونعم، المحتوى الصريح كلها على الطاولة.
اعتبارًا من اليوم، هناك حوالي 200 مورد )finetunes، LoRAs، workflows( للنموذج على Civitai فقط، العديد منها غير مناسب للعمل.
على ريديت، اختبر المستخدم Regular-Forever5876 حدود النموذج مع مطالبات العنف وخرج مذهولًا: “يا إلهي!!! هذا الشيء يفهم العنف بشكل مذهل! إنه يولده بشكل مثالي,” كتبوا.
البنية التحتية التقنية
السر الفني وراء Z-Image Turbo هو بنية S3-DiT - محول ذو تدفق واحد يعالج بيانات النص والصورة معًا من البداية، بدلاً من دمجها لاحقًا. هذه التكامل الوثيق، إلى جانب تقنيات التقطير العدوانية، يمكّن النموذج من تحقيق معايير الجودة التي تتطلب عادة نماذج بحجم خمسة أضعاف حجمه.
اختبار النموذج
) السرعة: SDXL وتيرة، جودة الجيل القادم
عند تسع خطوات، تولد Z-Image Turbo صورًا بنفس سرعة SDXL تقريبًا، مع 30 خطوة المعتادة - وهو نموذج تم طرحه في عام 2023.
الفرق هو أن جودة مخرجات Z-Image تتطابق أو تتفوق على Flux. على جهاز كمبيوتر محمول مزود بمعالج RTX 2060 وذاكرة VRAM سعة 6GB، استغرقت صورة واحدة 34 ثانية.
بالمقارنة، يستغرق Flux2 حوالي عشر مرات أطول لإنشاء صورة مماثلة.
الواقعية: المعيار الجديد
Z-Image Turbo هو أكثر نموذج مفتوح المصدر واقعي متاح حاليًا للأجهزة ذات المستوى الاستهلاكي. إنه يتفوق على Flux2 بشكل كامل، ويتميز النموذج الأساسي المقطر بأداء أفضل من التعديلات المخصصة للواقعية الخاصة بـ Flux.
تبدو تفاصيل جلد الشعر وملمسه طبيعية ودقيقة. لقد اختفى بشكل كبير ما يُعرف بـ “ذقن فلوكس” و"جلد بلاستيكي". النسب الجسمية متسقة بشكل جيد، وتُستخدم LoRAs لتعزيز الواقعية بشكل أكبر وقد بدأت تتداول بالفعل.
توليد النصوص: أخيرًا، كلمات تعمل
هنا هو المكان الذي يتألق فيه Z-Image حقًا. إنه أفضل نموذج مفتوح المصدر لتوليد النصوص داخل الصور، ويؤدي بمستوى مماثل لنموذجي Google Nanobanana وSeedream - النماذج التي تحدد المعايير الحالية.
بالنسبة للمتحدثين باللغة الماندرين، فإن Z-Image هو الخيار الواضح. إنه يفهم الصينية بشكل أصلي ويعرض الشخصيات بشكل صحيح.
نصيحة احترافية: أفاد بعض المستخدمين أن استخدام اللغة الماندرين في الطلبات يساعد فعليًا النموذج على إنتاج نتائج أفضل، حتى أن المطورين نشروا “محسن الطلبات” باللغة الماندرين.
النص الإنجليزي قوي بنفس القدر، مع استثناء واحد: الكلمات الطويلة غير الشائعة مثل “decentralized” يمكن أن تسبب له مشاكل - وهي قيود تشترك فيها Nanobanana أيضًا.
كلب يرتدي قبعة حمراء واقف على جهاز تلفاز يظهر الكلمات “Decrypt 是世界上最好的加密货币与人工智能媒体网站” على الشاشة. على اليسار، هناك امرأة شقراء ترتدي بدلة عمل تحمل عملة؛ على اليمين، يوجد روبوت واقف على صندوق إسعافات أولية، ويقع هرم أخضر خلف الصندوق. المشهد العام سريالي. قطة واقفة مقلوبة على كرة قدم بيضاء، بجانب الكلب. رائد فضاء من ناسا يحمل لافتة مكتوب عليها “Emerge” وم placed بجانب الروبوت.
كما هو ملحوظ، كان هناك خطأ مطبعي واحد فقط، ربما بسبب اختلاط اللغات، ولكن بخلاف ذلك، تم تمثيل جميع العناصر بدقة.
إن نزيف المطالبات minimal، والمشاهد المعقدة مع مواضيع متعددة تبقى متماسكة. إنه يتفوق على Flux في هذا المقياس ويثبت جدارته ضد Nanobanana.
ماذا بعد؟
تخطط Alibaba لإصدار متغيرين آخرين: Z-Image-Base للتخصيص الدقيق، و Z-Image-Edit للتعديلات القائمة على التعليمات. إذا تم إصدارهم بنفس الجودة مثل Turbo، فإن مشهد المصدر المفتوح على وشك التغير بشكل كبير.
حتى الآن، الحكم في المجتمع واضح: لقد أخذت Z-Image تاج Flux، تماماً كما أزاحت Flux Stable Diffusion في السابق.
الرابح الحقيقي سيكون هو من يجذب أكبر عدد من المطورين للبناء عليه.
لكن إذا سألتنا، نعم، Z-Image هو نموذجنا المفضل الموجه للمنزل والمفتوح المصدر في الوقت الحالي.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
الصورة Z من الصين تتربع على عرش فنون الذكاء الاصطناعي—ويمكن لجهاز الكمبيوتر الخاص بك الذي يعمل ببطاطا تشغيله
المصدر: CryptoNewsNet العنوان الأصلي: صورة Z الصينية تزيح فلوكس عن عرش فنون الذكاء الاصطناعي - ويمكن لجهاز الكمبيوتر الخاص بك الذي يشبه البطاطس تشغيله الرابط الأصلي:
نظرة عامة
تم إطلاق نموذج توليد الصور Z-Image Turbo من مختبر Tongyi التابع لـ Alibaba، والذي يحتوي على 6 مليارات معلمة، الأسبوع الماضي مع وعد بسيط: جودة من الطراز الأول على الأجهزة التي تمتلكها بالفعل.
ذاك الوعد يحقق نتائج قوية. بعد أيام من إصداره، كان المطورون يقومون بإنتاج LoRAs - تعديلات مخصصة مُعدلة بدقة - بمعدل يتجاوز بالفعل Flux2، الخليفة المبالغ في الترويج له لنموذج Flux الشهير.
يعتبر خدعة ز-إيمج هي الكفاءة. بينما تتطلب المنافسين مثل Flux2 حد أدنى من 24 جيجابايت من VRAM و حتى 90 جيجابايت للنموذج الكامل (، يعمل ز-إيمج على إعدادات مقيسة بقدر قليل يصل إلى 6 جيجابايت.
هذه منطقة RTX 2060 - أساسًا أجهزة من عام 2019. اعتمادًا على الدقة، يمكن للمستخدمين إنشاء صور في غضون 30 ثانية فقط.
بالنسبة للهواة والمبدعين المستقلين، هذه باب كان مغلقًا سابقًا.
استقبال المجتمع
كانت مجتمع فنون الذكاء الاصطناعي سريعًا في مدح النموذج.
“هذا ما كان من المفترض أن يكون عليه SD3,” كتب المستخدم Saruhey على CivitAI، أكبر مستودع في العالم لأدوات فنون الذكاء الاصطناعي مفتوحة المصدر. “الامتثال للتوجيهات رائع للغاية… نموذج يمكنه التعامل مع النص على الفور هو تغيير قواعد اللعبة. هذا الشيء يمتلك نفس القوة، إن لم يكن أفضل، مما تمتلكه Flux، وهو سحر أسود بحد ذاته. الصينيون متقدمون جداً في لعبة الذكاء الاصطناعي.”
تتوفر Z-Image Turbo على Civitai منذ الخميس الماضي وقد حصلت بالفعل على أكثر من 1,200 تقييم إيجابي. للتوضيح، Flux2 - التي تم إصدارها قبل Z-Image بعدة أيام - حصلت على 157.
النموذج غير خاضع للرقابة بالكامل من الصفر. المشاهير، الشخصيات الخيالية، ونعم، المحتوى الصريح كلها على الطاولة.
اعتبارًا من اليوم، هناك حوالي 200 مورد )finetunes، LoRAs، workflows( للنموذج على Civitai فقط، العديد منها غير مناسب للعمل.
على ريديت، اختبر المستخدم Regular-Forever5876 حدود النموذج مع مطالبات العنف وخرج مذهولًا: “يا إلهي!!! هذا الشيء يفهم العنف بشكل مذهل! إنه يولده بشكل مثالي,” كتبوا.
البنية التحتية التقنية
السر الفني وراء Z-Image Turbo هو بنية S3-DiT - محول ذو تدفق واحد يعالج بيانات النص والصورة معًا من البداية، بدلاً من دمجها لاحقًا. هذه التكامل الوثيق، إلى جانب تقنيات التقطير العدوانية، يمكّن النموذج من تحقيق معايير الجودة التي تتطلب عادة نماذج بحجم خمسة أضعاف حجمه.
اختبار النموذج
) السرعة: SDXL وتيرة، جودة الجيل القادم
عند تسع خطوات، تولد Z-Image Turbo صورًا بنفس سرعة SDXL تقريبًا، مع 30 خطوة المعتادة - وهو نموذج تم طرحه في عام 2023.
الفرق هو أن جودة مخرجات Z-Image تتطابق أو تتفوق على Flux. على جهاز كمبيوتر محمول مزود بمعالج RTX 2060 وذاكرة VRAM سعة 6GB، استغرقت صورة واحدة 34 ثانية.
بالمقارنة، يستغرق Flux2 حوالي عشر مرات أطول لإنشاء صورة مماثلة.
الواقعية: المعيار الجديد
Z-Image Turbo هو أكثر نموذج مفتوح المصدر واقعي متاح حاليًا للأجهزة ذات المستوى الاستهلاكي. إنه يتفوق على Flux2 بشكل كامل، ويتميز النموذج الأساسي المقطر بأداء أفضل من التعديلات المخصصة للواقعية الخاصة بـ Flux.
تبدو تفاصيل جلد الشعر وملمسه طبيعية ودقيقة. لقد اختفى بشكل كبير ما يُعرف بـ “ذقن فلوكس” و"جلد بلاستيكي". النسب الجسمية متسقة بشكل جيد، وتُستخدم LoRAs لتعزيز الواقعية بشكل أكبر وقد بدأت تتداول بالفعل.
توليد النصوص: أخيرًا، كلمات تعمل
هنا هو المكان الذي يتألق فيه Z-Image حقًا. إنه أفضل نموذج مفتوح المصدر لتوليد النصوص داخل الصور، ويؤدي بمستوى مماثل لنموذجي Google Nanobanana وSeedream - النماذج التي تحدد المعايير الحالية.
بالنسبة للمتحدثين باللغة الماندرين، فإن Z-Image هو الخيار الواضح. إنه يفهم الصينية بشكل أصلي ويعرض الشخصيات بشكل صحيح.
نصيحة احترافية: أفاد بعض المستخدمين أن استخدام اللغة الماندرين في الطلبات يساعد فعليًا النموذج على إنتاج نتائج أفضل، حتى أن المطورين نشروا “محسن الطلبات” باللغة الماندرين.
النص الإنجليزي قوي بنفس القدر، مع استثناء واحد: الكلمات الطويلة غير الشائعة مثل “decentralized” يمكن أن تسبب له مشاكل - وهي قيود تشترك فيها Nanobanana أيضًا.
الوعي المكاني والالتزام الفوري: استثنائي
التزام Z-Image بالتوجيهات ممتاز. إنه يفهم الأسلوب، والعلاقات المكانية، والمواقع، والنسب بدقة ملحوظة.
على سبيل المثال، خذ هذا الطلب:
كما هو ملحوظ، كان هناك خطأ مطبعي واحد فقط، ربما بسبب اختلاط اللغات، ولكن بخلاف ذلك، تم تمثيل جميع العناصر بدقة.
إن نزيف المطالبات minimal، والمشاهد المعقدة مع مواضيع متعددة تبقى متماسكة. إنه يتفوق على Flux في هذا المقياس ويثبت جدارته ضد Nanobanana.
ماذا بعد؟
تخطط Alibaba لإصدار متغيرين آخرين: Z-Image-Base للتخصيص الدقيق، و Z-Image-Edit للتعديلات القائمة على التعليمات. إذا تم إصدارهم بنفس الجودة مثل Turbo، فإن مشهد المصدر المفتوح على وشك التغير بشكل كبير.
حتى الآن، الحكم في المجتمع واضح: لقد أخذت Z-Image تاج Flux، تماماً كما أزاحت Flux Stable Diffusion في السابق.
الرابح الحقيقي سيكون هو من يجذب أكبر عدد من المطورين للبناء عليه.
لكن إذا سألتنا، نعم، Z-Image هو نموذجنا المفضل الموجه للمنزل والمفتوح المصدر في الوقت الحالي.