أعلنت شركة DeepSeek AI الصينية المتخصصة في تقنيات الذكاء الاصطناعي عن إطلاق نموذجها الجديد DeepSeek-V3، والذي يُصنَّف كواحد من أقوى النماذج المفتوحة المصدر على مستوى العالم.
أبرز مميزات نموذج DeepSeek-V3
- تقنية Mixture-of-Experts (MoE): يعتمد النموذج على هذه التقنية المبتكرة، حيث يضم 671 مليار معلَمة، مع تفعيل 37 مليار معلَمة لكل إدخال نصي. تُعدّ المعلَمات (Parameters) مقياسًا أساسيًا لتقييم قوة وكفاءة النماذج.
- رخصة مفتوحة: تسمح للمطورين بتحميله وتعديله لاستخدامات متعددة، بما في ذلك الاستخدامات التجارية.
- مجالات الاستخدام: يستطيع النموذج التعامل مع مجموعة واسعة من المهام النصية، مثل:
- البرمجة.
- الترجمة.
- كتابة المقالات والبريد الإلكتروني بناءً على وصف مبدئي.
- تفوق الأداء: وفقًا لاختبارات قياسية، تفوّق DeepSeek-V3 على نماذج مغلقة المصدر شهيرة مثل:
- GPT-4o من OpenAI.
- Claude 3.5 من شركة Anthropic.
- حقق النموذج نتائج مميزة في 9 معايير أداء رئيسية، مما يجعله الخيار الأفضل بين النماذج المفتوحة المصدر.
- أداء استثنائي في البرمجة: أظهر DeepSeek-V3 تفوقًا ملحوظًا في منافسات برمجية على منصة Codeforces، حيث تجاوز نماذج بارزة مثل:
- Llama 3.1 405B من Meta.
- GPT-4o من OpenAI.
- Qwen 2.5 72B من Alibaba.
- اختبار Aider Polyglot: تفوق النموذج في اختبار Aider Polyglot، المصمم لقياس قدرته على كتابة أكواد جديدة تتكامل مع الأكواد الموجودة، مما يبرز قوته في مهام البرمجة.
تكلفة تدريب أقل بكثير مقارنة بالنماذج المنافسة
تم تدريب DeepSeek-V3 باستخدام مجموعة بيانات ضخمة تحتوي على 14.8 تريليون رمز (Token)، حيث يمثل كل مليون رمز حوالي 750,000 كلمة. يتطلب هذا التدريب حوالي 2.788 مليون ساعة باستخدام وحدات معالجة الرسوميات H800، بتكلفة تقديرية تبلغ 5.6 مليون دولار. بالمقارنة، يحتاج نموذج Llama 3 من ميتا إلى 30.8 مليون ساعة تدريب.
يعود السبب وراء انخفاض تكلفة تدريب نموذج DeepSeek-V3 إلى:
- اعتماد تقنيات متقدمة لتحسين الكفاءة.
- إدخال تحسينات هندسية عميقة تُقلل من استهلاك الموارد.
كفاءة تشغيل استثنائية
يوفر النموذج كفاءة تشغيل عالية، حيث إن تكلفة الإدخال أقل بـ10 مرات مقارنة بالنماذج المنافسة، مثل تلك التي تقدمها OpenAI.
نموذج مفتوح المصدر للجميع
يتوفر نموذج DeepSeek-V3 للتحميل عبر منصتي GitHub وHuggingFace، مما يتيح لمجتمع المطورين والباحثين فرصة الوصول إلى نموذج قوي وفعّال بتكلفة معقولة.
خطوة نحو مستقبل أكثر انفتاحًا
في بيان نشرته الشركة على منصة إكس (Twitter سابقًا)، أكّد فريق DeepSeek AI أن هذا الإصدار يمثل خطوة هامة نحو تقليص الفجوة بين النماذج المفتوحة والمغلقة المصدر، مما يساهم في توفير تقنيات الذكاء الاصطناعي المتقدمة للجميع على مستوى عالمي.
🚀 Introducing DeepSeek-V3!
Biggest leap forward yet:
⚡ 60 tokens/second (3x faster than V2!)
💪 Enhanced capabilities
🛠 API compatibility intact
🌍 Fully open-source models & papers🐋 1/n pic.twitter.com/p1dV9gJ2Sd
— DeepSeek (@deepseek_ai) December 26, 2024
في الختام، إن إطلاق نموذج DeepSeek-V3 خطوة محورية في عالم الذكاء الاصطناعي المفتوح المصدر، حيث يجمع بين الكفاءة العالية والتكلفة المنخفضة، مما يتيح لمجتمع المطورين الوصول إلى تقنيات متقدمة كانت حكرًا على الشركات الكبرى. بفضل أدائه المتفوق وتقنياته المبتكرة، يُثبت DeepSeek-V3 أن المستقبل يحمل المزيد من الإمكانيات لتوسيع نطاق استخدام الذكاء الاصطناعي عالميًا. مع توفره عبر منصات مثل GitHub وHuggingFace، يصبح بإمكان الجميع المساهمة في تطوير واستخدام هذا النموذج الرائد لدفع الابتكار إلى آفاق جديدة.