كشفت شركة ديب سيك الصينية عن تطوير نموذج ذكاء اصطناعي جديد متعدد الوسائط قادر على ضغط النصوص الطويلة والمعقدة باستخدام تقنيات الرؤية البصرية، في خطوة تهدف إلى تمكين النماذج اللغوية العملاقة من معالجة كميات ضخمة من البيانات بدقة عالية وتكلفة حوسبية منخفضة.
وأوضحت الشركة في بيان نشرته عبر مدونتها الرسمية أن النموذج الجديد، الذي يحمل اسم "DeepSeek-OCR"، أصبح متاحًا الآن للمطورين عبر منصات Hugging Face وGitHub، مشيرة إلى أنه يعتمد على تقنية مبتكرة تستخدم "المشفّر البصري" لضغط النصوص قبل تمريرها إلى نموذج اللغة الكبير. ويسمح هذا النهج بتقليص عدد وحدات النص بنسبة تتراوح بين 7 إلى 20 مرة مع الحفاظ على مستوى عالٍ من الدقة في الفهم والتحليل.
ويتألف النموذج من مكونين رئيسيين، أولهما "DeepEncoder" وهو المحرك الأساسي الذي يتولى عملية الضغط مع الحفاظ على جودة البيانات، وثانيهما "DeepSeek3B-MoE-A570M" وهو نظام يعتمد على بنية Mixture-of-Experts التي تضم مجموعة من الخبراء الفرعيين المتخصصين في معالجة أنواع مختلفة من البيانات.
وأظهرت نتائج الاختبارات أن النموذج تمكن من تحقيق دقة بلغت 97% عند ضغط النصوص إلى ما دون عشرة أضعاف، فيما حافظ على نحو 60% من الدقة عند زيادة الضغط إلى 20 ضعفًا، وهو ما اعتبرته الشركة إنجازًا تقنيًا كبيرًا يثبت كفاءة النظام في الحفاظ على المعلومات رغم مستويات الضغط العالية. كما أظهر النموذج تفوقًا في اختبار الأداء OmniDocBench مقارنة بنماذج أخرى مثل GOT-OCR 2.0 وMinerU 2.0، مع استخدام عدد أقل بكثير من الرموز النصية.
ولا يقتصر دور النموذج على تحليل النصوص والصور فحسب، بل يمتد ليشمل التعرف على الجداول والمعادلات الرياضية والرسومات الهندسية، مما يجعله مناسبًا للاستخدام في مجالات متعددة أبرزها المالية والبحث العلمي والهندسة.
وأضافت الشركة أن النظام يتميز بكفاءة كبيرة في استهلاك الموارد، إذ يمكنه توليد أكثر من 200 ألف صفحة من بيانات التدريب يوميًا باستخدام بطاقة رسوميات واحدة فقط من نوع إنفيديا A100-40G.
وترى ديب سيك أن هذا الابتكار يمهد الطريق لتطوير أنظمة ذكاء اصطناعي أكثر كفاءة ومرونة، قادرة على التعامل مع السياقات الطويلة للنصوص دون التضحية بالأداء أو زيادة التكاليف، في خطوة من شأنها أن تعيد تعريف طريقة بناء وتشغيل النماذج اللغوية العملاقة في المستقبل.