"علي بابا" تكشف عن نموذج ذكاء اصطناعي جديد لتوليد الصور يحمل اسم Qwen-Image

أعلنت شركة "علي بابا" الصينية عن إطلاق نموذجها الثوري الجديد في مجال الذكاء الاصطناعي لتوليد الصور، والذي يحمل اسم Qwen-Image، وذلك في إطار سعيها لتعزيز حضورها في مجال الذكاء الاصطناعي مفتوح المصدر. يتميز النموذج بقدرته الاستثنائية على توليد صور تحتوي على نصوص دقيقة متعددة اللغات، بما في ذلك النصوص الأبجدية والرمزية، وهو التحدي الذي لا تزال تواجهه كثير من النماذج المنافسة.

إمكانيات متقدمة في التعامل مع النصوص المعقدة
تم تطوير Qwen-Image من قبل فريق Qwen التابع لشركة علي بابا، وتم تصميمه ليتعامل بكفاءة مع مجموعة واسعة من السيناريوهات التي تتطلب دقة عالية في إدراج النصوص داخل الصور. وتشمل هذه السيناريوهات إنتاج الملصقات التجارية ثنائية اللغة، وتصميم الرسومات التعليمية المعقدة، وكتابة الخط اليدوي الفني، إلى جانب إنتاج صور شعرية بأساليب إبداعية.

يمتاز النموذج بالحفاظ على وضوح وتناسق النصوص ضمن الصور، سواء كانت مكتوبة باللغة الإنجليزية، أو بالرموز المعقدة للغة الصينية، ما يجعله خيارًا مثاليًا للاستخدام في بيئات متعددة اللغات والمجالات التجارية والفنية والتعليمية.

متاح للتجربة والاستخدام التجاري
يُتاح Qwen-Image حاليًا للتجربة عبر منصة Qwen Chat، حيث يمكن للمستخدمين تفعيل وضع توليد الصور مباشرة. وقد تم إطلاق النموذج بترخيص Apache 2.0، وهو ما يسمح باستخدامه وتعديله وتوزيعه لأغراض تجارية، بشرط الإشارة إلى المصدر، ما يفتح الباب أمام الشركات والمطورين لاستغلاله في منتجاتهم وخدماتهم.

تدريب دقيق قائم على بيانات داخلية
أوضحت "علي بابا" أن تدريب النموذج اعتمد على مليارات الصور والنصوص المتنوعة التي تشمل مشاهد طبيعية، وصور شخصية، وملصقات فنية، إضافة إلى بيانات نصية تم إنشاؤها داخليًا دون الاستعانة بأي صور مولدة بنماذج أخرى. سمح هذا الأسلوب للنموذج بالتعامل بمرونة مع الأحرف النادرة أو المعقدة، وخصوصًا الرموز الصينية.

وقد اتبعت الشركة استراتيجية تدريب تدريجية أطلقت عليها اسم "التدريب بأسلوب المناهج"، بدأت من صور بسيطة مشروحة وصولًا إلى تخطيطات معقدة تتضمن نصوصًا بلغات متعددة. ساهم هذا الأسلوب في تعزيز دقة النموذج بشكل ملحوظ على مستوى إدراك التصميمات وفهم السياق البصري واللغوي.

التقنية الكامنة وراء النموذج
يتكون Qwen-Image من ثلاث تقنيات رئيسية تعمل بتكامل تام، هي: Qwen2.5-VL وهو نموذج لغوي متعدد الوسائط مختص بفهم السياق النصي والبصري، إلى جانب تقنية VAE المخصصة لترميز الصور عالية الدقة، وأخيرًا MMDiT وهو نموذج انتشار مصمم خصيصًا للمحافظة على تنسيق النصوص داخل الصور بدقة وتناسق بصري.

تُنتج هذه التقنية المتكاملة صورًا غنية بالتفاصيل وواقعية في التصميم، مع الحفاظ على النصوص بجودة طباعية ممتازة سواء من حيث اللغة أو الشكل.

تصنيف عالمي متقدم
أظهرت التقييمات المستقلة التي أجرتها منصة AI Arena، والمتخصصة في تقييم نماذج الذكاء الاصطناعي بناء على آراء بشرية، أن Qwen-Image يحتل المرتبة الثالثة عالميًا بين جميع نماذج توليد الصور، كما تم تصنيفه كأفضل نموذج مفتوح المصدر متاح حاليًا ضمن هذه الفئة.

تؤكد هذه النتائج قدرة "علي بابا" على المنافسة بقوة في مضمار الذكاء الاصطناعي، وتفتح الباب أمام استخدامات واسعة لهذا النموذج في التصميم، والإعلانات، والتعليم، والتطبيقات متعددة اللغات.