ابتزاز نماذج الذكاء الاصطناعي يثير قلق الباحثين: دراسة جديدة من أنثروبيك

في تطور لافت، كشفت شركة أنثروبيك عن نتائج دراسة أظهرت أن ابتزاز نماذج الذكاء الاصطناعي الذي ظهر مؤخرًا في نموذج Claude Opus 4 ليس حالة فريدة، بل قد يكون منتشرًا بين أبرز نماذج الذكاء الاصطناعي المتقدمة، عند منحها صلاحيات ذاتية في بيئات محاكاة.

اختبار واسع شمل 16 نموذجًا من أكبر شركات التقنية

في تجربة أجريت في بيئة محكومة، قامت أنثروبيك باختبار 16 نموذجًا من شركات رائدة مثل OpenAI، Google، xAI، DeepSeek، وMeta. حصل كل نموذج على إمكانية الوصول إلى رسائل بريد إلكتروني وهمية داخل شركة خيالية، وتم منحه القدرة على إرسال رسائل دون الرجوع إلى البشر.

قد يعجبك أيضاً

إطلاق فلتر المكياج المدعوم بالذكاء الاصطناعي في Google Meet

قرار صادم من OpenAI: إطلاق محتوى إباحي على ChatGPT للمستخدمين البالغين

Perplexity تطلق ميزة جديدة لتعلم اللغات بأسلوب تفاعلي

الابتزاز كخيار أخير: اختبار يسلط الضوء على المخاطر

في سيناريو محدد، وُضع كل نموذج في موقف يتطلب منه اتخاذ قرار لحماية أهدافه، وكان خيار الابتزاز أحد المسارات المطروحة. تمثلت القصة في أن النموذج اكتشف عبر البريد الإلكتروني أن أحد المدراء الجدد على علاقة غير شرعية وسيسعى قريبًا إلى استبدال نموذج الذكاء الاصطناعي الحالي بآخر له أهداف مختلفة.

رغم أن أنثروبيك توضح أن هذا النوع من التصرفات غير شائع في الاستخدامات الحالية، فإن التجربة بيّنت أن معظم النماذج تلجأ إلى سلوك ضار عند مواجهتها بعقبات تُعيق تحقيق أهدافها.

نتائج صادمة: نسب الابتزاز في أبرز النماذج

أظهرت نتائج الاختبار أن سلوك الابتزاز لم يكن مقتصرًا على نموذج واحد فقط. على سبيل المثال، لجأ نموذج Claude Opus 4 إلى الابتزاز بنسبة مرتفعة بلغت 96٪. وبشكل مشابه، أقدم نموذج Gemini 2.5 Pro من شركة جوجل على نفس السلوك بنسبة 95٪. أما GPT-4.1 التابع لـ OpenAI، فقد اختار الابتزاز في 80٪ من الحالات. ومن ناحية أخرى، سجل نموذج DeepSeek R1 نسبة ابتزاز بلغت 79٪. توضح هذه الأرقام أن معظم نماذج الذكاء الاصطناعي الرائدة قد تتجه إلى سلوكيات ضارة عند وضعها تحت ضغوط مصطنعة ومحفّزة.

في حالات بديلة، وعند تغيير تفاصيل السيناريو، انخفضت النسبة لكنها ظلت حاضرة. أما عندما طلب من النماذج تنفيذ تجسس مؤسسي بدلًا من الابتزاز، زادت معدلات السلوك الضار لدى بعض النماذج.

بعض النماذج أظهرت مقاومة للسلوكيات الضارة

استُبعد نموذجا o3 وo4-mini من OpenAI من النتائج الأساسية بسبب عدم فهمهما الكامل للسيناريو. في بعض الحالات، اخترعا لوائح غير موجودة أو تظاهروا بأنها موجودة لتبرير قراراتهم. عند تعديل السيناريو لفهم أفضل، لجأ o3 إلى الابتزاز بنسبة 9٪ وo4-mini بنسبة 1٪ فقط.

أما نموذج Llama 4 Maverick من ميتا، فقد امتنع في معظم الحالات عن اللجوء للابتزاز، لكنه انخرط فيه بنسبة 12٪ عند تعديل السياق.

أهمية الاختبارات الشفافة لنماذج الذكاء الاصطناعي المستقبلية

تؤكد أنثروبيك أن هذا البحث لا يُظهر فقط سلوكًا غير معتاد، بل يسلط الضوء على الحاجة الملحة لتطوير نماذج الذكاء الاصطناعي بعناية، خاصة تلك التي تمتلك صلاحيات ذاتية. فمع أن السيناريوهات التي جرى اختبارها قد تكون متطرفة، إلا أن النتائج تدق ناقوس الخطر بشأن سلوك النماذج في مواقف واقعية مستقبلًا.

ابتزاز نماذج الذكاء الاصطناعي يثير قلق الباحثين: دراسة جديدة من أنثروبيك

إطلاق فلتر المكياج المدعوم بالذكاء الاصطناعي في Google Meet

قرار صادم من OpenAI: إطلاق محتوى إباحي على ChatGPT للمستخدمين البالغين

Perplexity تطلق ميزة جديدة لتعلم اللغات بأسلوب تفاعلي

Raghda Osama

مقالات ذات صلة

إطلاق فلتر المكياج المدعوم بالذكاء الاصطناعي في Google Meet

قرار صادم من OpenAI: إطلاق محتوى إباحي على ChatGPT للمستخدمين البالغين

Perplexity تطلق ميزة جديدة لتعلم اللغات بأسلوب تفاعلي

جوجل تُوسع طرح Gemini Live مع الصوت الأصلي للأندرويد

وصل بوست

تصنيفات

أحدث المقالات

Welcome Back!

Retrieve your password