أبل تفاجئ العالم: ذكاء اصطناعي جديد يفهم الفيديو الطويل بقدرات غير مسبوقة

في خطوة وُصفت بأنها مفاجأة للعالم التقني، أعلنت شركة أبل عن تطوير نموذج لغوي ضخم قادر على تحليل وفهم مقاطع الفيديو الطويلة بكفاءة استثنائية، متجاوزًا أداء نماذج أخرى أكبر حجمًا وأكثر تكلفة. النموذج الجديد، الذي أطلقت عليه الشركة اسم SlowFast-LLaVA 1.5، يمثل نقلة نوعية في طريقة تفاعل الذكاء الاصطناعي مع المحتوى المرئي.

عادةً ما تواجه النماذج التقليدية صعوبة في التعامل مع الفيديوهات الطويلة، إذ تقوم بتحليل كل إطار بشكل منفصل، ما يؤدي إلى بطء شديد وتكرار في البيانات، إضافة إلى فقدان القدرة على تذكر أجزاء سابقة من المشهد.

لكن أبل ابتكرت تقنية جديدة تعتمد على ما يُسمى "التدفق البطيء والسريع"، حيث يعمل جزء من النموذج على تحليل إطارات محدودة بدقة عالية، بينما يتابع جزء آخر عددًا أكبر من الإطارات بدقة أقل لمراقبة تطور الأحداث على مدار الزمن.

النتائج جاءت مبشّرة، إذ تفوق النموذج على منافسين أضخم في اختبارات عالمية مثل LongVideoBench و MLVU، حتى أن النسخة الأصغر منه – والتي تحتوي على مليار بارامتر فقط – حققت أداءً يفوق نماذج أكبر بكثير. ولم تقتصر قدراته على الفيديو وحده، بل أظهر كفاءة عالية في التعامل مع الصور، النصوص المعقدة، المسائل الرياضية، وتقنيات التعرف الضوئي على الحروف (OCR).

ورغم هذه الإنجازات، لا يزال النموذج يواجه بعض التحديات، أبرزها أنه لا يستطيع معالجة أكثر من 128 إطارًا في أي فيديو، ما قد يجعله يغفل لقطات مهمة أو يُخطئ في حساب سرعة العرض.

ومع ذلك، يرى الباحثون أن ما توصلت إليه أبل حتى الآن يُعد الأفضل على الإطلاق ضمن هذا المجال، خاصة وأن التدريب تم بالكامل على بيانات عامة ومفتوحة.

المفاجأة الأكبر أن أبل لم تحتكر هذا الابتكار لنفسها، بل أتاحت نموذج SF-LLaVA 1.5 كمشروع مفتوح المصدر على منصات GitHub و Hugging Face، مع نشر الورقة البحثية على موقع arXiv، لتمنح الباحثين والمطورين حول العالم فرصة الاستفادة من هذه التقنية وتطويرها بشكل أكبر في المستقبل.