أعلنت شركة DeepSeek الصينية الأسبوع الماضي عن إصدار نسخة محسنة من نموذجها القائم على الاستدلال “R1″، والذي أظهر أداءً قويًا في اختبارات البرمجة والرياضيات. لكن الشركة لم تكشف عن مصادر البيانات التي استخدمتها في تدريب هذا النموذج، ما فتح باب التكهنات حول احتمالية استخدام مخرجات من نموذج “Gemini” التابع لشركة جوجل.
مطورون يتهمون DeepSeek باستخدام مخرجات Gemini
المطور الأسترالي سام بيتش، المختص بتقييمات الذكاء العاطفي لنماذج الذكاء الاصطناعي، نشر عبر منصة X (تويتر سابقًا) ما وصفه بأدلة تشير إلى أن النموذج R1-0528 من DeepSeek يتبنى تعبيرات وألفاظًا مشابهة لتلك المستخدمة في نموذج Gemini 2.5 Pro من جوجل.
If you’re wondering why new deepseek r1 sounds a bit different, I think they probably switched from training on synthetic openai to synthetic gemini outputs. pic.twitter.com/Oex9roapNv
— Sam Paech (@sam_paech) May 29, 2025
وفي منشور منفصل، أشار مطور آخر – يستخدم اسماً مستعارًا ويعمل على مشروع تقييم حرية التعبير في النماذج – إلى أن آلية “الاستدلال الداخلي” أو “آثار التفكير” في نموذج DeepSeek “تبدو مشابهة جدًا لآثار نموذج Gemini”.
اتهامات سابقة باستخدام بيانات ChatGPT
لم تكن هذه المرة الأولى التي تُتهم فيها DeepSeek باستخدام مخرجات من نماذج منافسة. ففي ديسمبر الماضي، لاحظ مطورون أن نموذج DeepSeek V3 كان أحيانًا يُعرف نفسه باسم ChatGPT، ما يشير إلى احتمال تدريبه على سجلات دردشة تم جمعها من OpenAI.
وفي وقت لاحق، صرحت OpenAI لصحيفة فاينانشال تايمز بأنها عثرت على أدلة تربط DeepSeek باستخدام تقنية “التقطير” (Distillation)، وهي أسلوب تدريب يعتمد على استخراج المعرفة من نماذج أكبر وأكثر تقدمًا.
مايكروسوفت تكشف عن تسريبات عبر حسابات OpenAI
وفقًا لوكالة بلومبيرغ، رصدت مايكروسوفت – المستثمر الرئيسي في OpenAI – عمليات تسريب كميات ضخمة من البيانات في أواخر عام 2024 عبر حسابات مطورين على منصة OpenAI. وتعتقد الشركة أن هذه الحسابات مرتبطة بنموذج DeepSeek.
رغم أن التقطير يعتبر ممارسة شائعة، إلا أن شروط خدمة OpenAI تحظر صراحة استخدام مخرجات نماذجها لبناء أنظمة منافسة.
تلوث بيانات الإنترنت يربك التمييز بين النماذج
يشير خبراء إلى أن التلوث المتزايد للإنترنت بمحتوى تولده أدوات الذكاء الاصطناعي يجعل من الصعب التحقق من مصادر التدريب بدقة. إذ أصبحت الشبكة تعج بمحتوى منخفض الجودة ومكرر، سواء من مزرعة محتوى أو روبوتات على منصات مثل Reddit وX.
خبراء يرجحون فرضية استخدام مخرجات Gemini
يرى ناثان لامبرت، الباحث في معهد AI2 للأبحاث، أن فرضية استخدام DeepSeek لمخرجات Gemini ليست مستبعدة. وكتب على منصة X: “لو كنت مكان DeepSeek، لولدت كمًا كبيرًا من البيانات الاصطناعية باستخدام أقوى نموذج متاح… كما أن الشركة تفتقر إلى وحدات GPU لكنها تملك المال، ما يمنحها قوة حسابية فعالة أكثر”.
If I was DeepSeek I would definitely create a ton of synthetic data from the best API model out there. Theyre short on GPUs and flush with cash. It’s literally effectively more compute for them. yes on the Gemini distill question.
— Nathan Lambert (@natolambert) June 3, 2025
شركات الذكاء الاصطناعي ترد بتعزيز الإجراءات الأمنية
سعيًا للحد من ظاهرة التقطير، اتخذت شركات الذكاء الاصطناعي الكبرى خطوات أمنية متقدمة. ففي أبريل، فرضت OpenAI عملية تحقق من الهوية باستخدام وثائق حكومية للوصول إلى نماذجها المتقدمة. وقد استبعدت الصين من قائمة الدول المؤهلة. في الوقت نفسه، بدأت جوجل بتلخيص ما يُعرف بـ”آثار التفكير” في نماذجها عبر منصة AI Studio، لتقليل فرص استنساخ هذه النماذج من قبل المنافسين. أما شركة أنثروبيك، فقد أعلنت في مايو
تعليق جوجل قيد الانتظار
حتى اللحظة، لم تُصدر جوجل أي تعليق رسمي حول الادعاءات المتعلقة باستخدام DeepSeek لمخرجات Gemini.
في النهاية، تثير قضية DeepSeek تساؤلات جدية حول شفافية تدريب نماذج الذكاء الاصطناعي وحدود الاستخدام العادل لمخرجات النماذج المنافسة. وبينما تواصل الشركات الكبرى تعزيز إجراءات الحماية، يبدو أن سباق التفوق في الذكاء الاصطناعي لن يهدأ، بل سيشهد مزيدًا من التدقيق والمنافسة الحادة في الفترة المقبلة.




