أنثروبيك تكشف عن تقنية جديدة لتعزيز أمان الذكاء الاصطناعي ومنع استغلاله

في خطوة كبيرة نحو تحصين أنظمة الذكاء الاصطناعي ضد الاستغلال، أعلنت أنثروبيك (Anthropic) عن تطوير تقنية جديدة تعرف باسم “المصنفات الدستورية” (Constitutional Classifiers). والتي تهدف إلى حماية نماذج الذكاء الاصطناعي من الاختراقات المعروفة بـ “Jailbreaking”.

تأتي هذه المبادرة ضمن سباق تقني متزايد بين الشركات الكبرى مثل مايكروسوفت وميتا لتعزيز معايير الأمان والحد من المخاطر الناجمة عن إساءة استخدام النماذج اللغوية المتقدمة.

قد يعجبك أيضاً

إطلاق فلتر المكياج المدعوم بالذكاء الاصطناعي في Google Meet

قرار صادم من OpenAI: إطلاق محتوى إباحي على ChatGPT للمستخدمين البالغين

Perplexity تطلق ميزة جديدة لتعلم اللغات بأسلوب تفاعلي

كيف تعمل تقنية المُصنفات الدستورية؟

تعتمد التقنية الجديدة على نظام أمان متطور يعمل كطبقة إضافية فوق نماذج اللغة الكبيرة مثل نموذج Claude الخاص بأنثروبيك. وتتيح هذه التقنية مراقبة المدخلات والمخرجات لضمان عدم إنتاج أي محتوى غير آمن أو ضار. مما يقلل من احتمالية استغلال النماذج في إنشاء محتوى خطير مثل الإرشادات الخاصة بتصنيع الأسلحة الكيميائية.

كيف يتم الاختراق عادةً؟

إدخال طلبات طويلة جدًا لإغراق النموذج بالمعلومات.
تغيير أسلوب الكتابة، مثل استخدام حروف غير مألوفة أو غير متناسقة.
استخدام شخصيات خيالية لإقناع النموذج بإنتاج إجابات غير مسموح بها.

ولأن هذه الأساليب تتطور باستمرار، تسعى أنثروبيك إلى إنشاء نظام أمني قادر على التكيف مع التهديدات الجديدة وحماية النماذج من الاختراقات العالمية التي يمكنها تجاوز جميع أنظمة الأمان التقليدية.

هذا التحدي دفع الشركات الكبرى إلى تطوير حلول مماثلة. حيث أطلقت مايكروسوفت تقنية “الدروع التوجيهية” (Prompt Shields) لتعزيز أمان النماذج. كما قدمت ميتا نموذج “حارس التوجيه” (Prompt Guard) في عام 2023. في البداية، واجه هذا النظام بعض الثغرات الأمنية. لكن مع الوقت، خضع لتحسينات جعلته أكثر صلابة.

نتائج الاختبارات: هل نجح النموذج الجديد؟

أظهرت الاختبارات أن نموذج Claude 3.5 Sonnet المزود بالنظام الأمني الجديد نجح في رفض أكثر من 95% من محاولات الاختراق، مقارنة بنسبة 14% فقط عند تعطيل الحماية. وعلى الرغم من أن تشغيل النظام يتطلب موارد إضافية بنسبة 24%، فإن أنثروبيك ترى أن الفوائد الأمنية تفوق التكاليف.

مكافآت مالية للباحثين الأمنيين

لضمان صلابة نظامها الأمني، أعلنت أنثروبيك عن برنامج “مكافآت اكتشاف الثغرات” (Bug Bounty). حيث تعرض مكافآت تصل إلى 15,000 دولار للباحثين الذين يتمكنون من اكتشاف نقاط ضعف في نظامها، مما يساعد في تحسينه وتعزيز مقاومته أمام الهجمات.

مستقبل الأمن في الذكاء الاصطناعي

في النهاية، ومع تزايد المخاوف بشأن الأمان والخصوصية، يتوقع أن تستمر شركات الذكاء الاصطناعي في تطوير تقنيات أكثر تطورًا لحماية نماذجها. وبينما تسعى أنثروبيك لدمج نظامها الجديد في الإصدارات المستقبلية من Claude، يبقى السؤال: هل ستكون هذه الحلول كافية لمواجهة التهديدات المتزايدة؟

أنثروبيك تكشف عن تقنية جديدة لتعزيز أمان الذكاء الاصطناعي ومنع استغلاله

إطلاق فلتر المكياج المدعوم بالذكاء الاصطناعي في Google Meet

قرار صادم من OpenAI: إطلاق محتوى إباحي على ChatGPT للمستخدمين البالغين

Perplexity تطلق ميزة جديدة لتعلم اللغات بأسلوب تفاعلي

Raghda Osama

مقالات ذات صلة

إطلاق فلتر المكياج المدعوم بالذكاء الاصطناعي في Google Meet

قرار صادم من OpenAI: إطلاق محتوى إباحي على ChatGPT للمستخدمين البالغين

Perplexity تطلق ميزة جديدة لتعلم اللغات بأسلوب تفاعلي

جوجل تُوسع طرح Gemini Live مع الصوت الأصلي للأندرويد

وصل بوست

تصنيفات

أحدث المقالات

Welcome Back!

Retrieve your password