كشف باحثو شركة أبل عن إطلاق قاعدة بيانات واسعة النطاق تحمل اسم Pico-Banana-400K، تضم أكثر من 400 ألف صورة حقيقية ونظيراتها المحررة بالذكاء الاصطناعي، وذلك بهدف دعم الأبحاث في مجال النماذج اللغوية الكبيرة الموجهة لتحرير الصور عبر الأوامر النصية.
تُعد قاعدة البيانات مفتوحة المصدر، لكنها مخصصة للأغراض البحثية فقط وغير متاحة للاستخدام التجاري، في خطوة تهدف إلى تعزيز التعاون العلمي وتطوير أدوات تحرير الصور الذكية بدقة أعلى وواقعية أكبر.
ونشرت أبل تفاصيل المشروع في ورقة بحثية بعنوان "Pico-Banana-400K: قاعدة بيانات واسعة لتحرير الصور الموجه بالنصوص" على موقع arXiv، موضحة أن الصور مأخوذة من قاعدة OpenImages ومنظمة ضمن 35 نوعًا من التعديلات، تشمل تعديلات بخطوة واحدة، وأخرى متعددة الخطوات، وأزواج تفضيل تُستخدم في تحسين التدريب.
طريقة الإنتاج والمميزات
تم إنشاء قاعدة البيانات باستخدام نموذج توليدي متطور أطلقت عليه أبل اسم Nano Banana لتوليد التعديلات، بينما استخدمت نموذجًا متعدد الوسائط يعمل كـ"قاضٍ آلي" يقوم بفلترة النتائج غير الدقيقة وإعادة تنفيذها تلقائيًا، مما أسفر عن مجموعة بيانات غنية ومتنوعة تشمل:
صور فوتوغرافية ومشاهد بشرية واقعية، صور تحتوي على نصوص مكتوبة، تعليمات نصية طويلة وقصيرة لدعم التدريب متعدد الأنماط.
كما تتضمن القاعدة أمثلة سلبية وأزواج تفضيل، ما يساعد في أبحاث مواءمة النماذج وتقييم جودة المخرجات، حيث تتعلم النماذج ليس فقط كيفية تنفيذ الأوامر، بل أيضًا تمييز النتائج الأفضل من حيث الجمال والدقة.
وتوثّق الورقة البحثية كذلك أنواع التعديلات الصعبة مثل تحويل الأنماط، والتغييرات الفوتومترية، أو إعادة تموضع العناصر بدقة، ما يجعل القاعدة مرجعًا شاملاً للباحثين في هذا المجال.
خلفية تقنية
تأتي هذه الخطوة في ظل سعي أبل إلى تسريع أبحاث الذكاء الاصطناعي التوليدي، رغم بعض التأخيرات في تطوير نماذجها الداخلية.
فبينما دمجت الشركة تقنيات الذكاء الاصطناعي في تطبيقات وسلسلة iPhone 17 الجديدة، لا يزال تحديث Siri المرتقب الذي أُعلن عنه في عام 2024 قيد التطوير.