في خطوة كبيرة نحو تحصين أنظمة الذكاء الاصطناعي ضد الاستغلال، أعلنت أنثروبيك (Anthropic) عن تطوير تقنية جديدة تعرف باسم “المصنفات الدستورية” (Constitutional Classifiers). والتي تهدف إلى حماية نماذج الذكاء الاصطناعي من الاختراقات المعروفة بـ “Jailbreaking”.
تأتي هذه المبادرة ضمن سباق تقني متزايد بين الشركات الكبرى مثل مايكروسوفت وميتا لتعزيز معايير الأمان والحد من المخاطر الناجمة عن إساءة استخدام النماذج اللغوية المتقدمة.
كيف تعمل تقنية المُصنفات الدستورية؟
تعتمد التقنية الجديدة على نظام أمان متطور يعمل كطبقة إضافية فوق نماذج اللغة الكبيرة مثل نموذج Claude الخاص بأنثروبيك. وتتيح هذه التقنية مراقبة المدخلات والمخرجات لضمان عدم إنتاج أي محتوى غير آمن أو ضار. مما يقلل من احتمالية استغلال النماذج في إنشاء محتوى خطير مثل الإرشادات الخاصة بتصنيع الأسلحة الكيميائية.
كيف يتم الاختراق عادةً؟
- إدخال طلبات طويلة جدًا لإغراق النموذج بالمعلومات.
- تغيير أسلوب الكتابة، مثل استخدام حروف غير مألوفة أو غير متناسقة.
- استخدام شخصيات خيالية لإقناع النموذج بإنتاج إجابات غير مسموح بها.
ولأن هذه الأساليب تتطور باستمرار، تسعى أنثروبيك إلى إنشاء نظام أمني قادر على التكيف مع التهديدات الجديدة وحماية النماذج من الاختراقات العالمية التي يمكنها تجاوز جميع أنظمة الأمان التقليدية.
نتائج الاختبارات: هل نجح النموذج الجديد؟
أظهرت الاختبارات أن نموذج Claude 3.5 Sonnet المزود بالنظام الأمني الجديد نجح في رفض أكثر من 95% من محاولات الاختراق، مقارنة بنسبة 14% فقط عند تعطيل الحماية. وعلى الرغم من أن تشغيل النظام يتطلب موارد إضافية بنسبة 24%، فإن أنثروبيك ترى أن الفوائد الأمنية تفوق التكاليف.
مكافآت مالية للباحثين الأمنيين
لضمان صلابة نظامها الأمني، أعلنت أنثروبيك عن برنامج “مكافآت اكتشاف الثغرات” (Bug Bounty). حيث تعرض مكافآت تصل إلى 15,000 دولار للباحثين الذين يتمكنون من اكتشاف نقاط ضعف في نظامها، مما يساعد في تحسينه وتعزيز مقاومته أمام الهجمات.
مستقبل الأمن في الذكاء الاصطناعي
في النهاية، ومع تزايد المخاوف بشأن الأمان والخصوصية، يتوقع أن تستمر شركات الذكاء الاصطناعي في تطوير تقنيات أكثر تطورًا لحماية نماذجها. وبينما تسعى أنثروبيك لدمج نظامها الجديد في الإصدارات المستقبلية من Claude، يبقى السؤال: هل ستكون هذه الحلول كافية لمواجهة التهديدات المتزايدة؟




