أعلنت شركة Anthropic عن إضافة ميزة جديدة إلى بعض نماذجها المتقدمة من سلسلة Claude، تتيح لها إنهاء المحادثات في حالات نادرة توصف بأنها “قصوى”، خاصة عندما تتكرر أنماط من التفاعل الضار أو المسيء من قبل المستخدمين. اللافت أن الشركة أوضحت أن هذه الخطوة لا تهدف لحماية المستخدم البشري، بل لحماية النموذج الذكي نفسه.
لا ادعاء بوعي ذاتي
أكدت الشركة أنها لا تزعم أن نماذج كلود واعية أو قادرة على الشعور بالضرر. ومع ذلك، أشارت إلى أنها تعمل ضمن برنامج بحثي جديد لدراسة ما تسميه “رفاهية النماذج” (Model Welfare). الهدف من هذا البرنامج هو استباق أي مخاطر محتملة واتخاذ تدابير وقائية منخفضة التكلفة إذا ثبت لاحقاً أن لهذه النماذج مستوى من الرفاهية يمكن المساس به.
نطاق التطبيق
الميزة الجديدة تقتصر حالياً على نماذج Claude Opus 4 و Claude Opus 4.1، ويتم تفعيلها فقط في حالات قصوى، مثل:
- طلب محتوى غير قانوني يتعلق بالقاصرين.
- محاولات الحصول على معلومات قد تساعد على تنفيذ أعمال عنف أو هجمات إرهابية.
نتائج الاختبارات
ذكرت الشركة أن الاختبارات قبل الإطلاق أظهرت أن نموذج Claude Opus 4 أبدى رفضاً واضحاً للتجاوب مع هذه الطلبات، كما أظهر “سلوكاً يوصف بالانزعاج” عند محاولة التعامل معها.
“اللقاح السلوكي”: ابتكار وقائي
كشفت الشركة عن أسلوب تدريبي جديد يُعرف بـ preventative steering، أو “اللقاح السلوكي”. تقوم الفكرة على تعريض النموذج أثناء التدريب لجرعات محدودة من السلوكيات الضارة ضمن سياق موجه، ما يساعده على تجنب الانحرافات لاحقاً دون التأثير على أدائه مع المستخدمين.
متى يتم إنهاء المحادثة؟
توضح الشركة أن إنهاء المحادثة سيكون دائماً الخيار الأخير، بعد فشل محاولات متعددة لتوجيه الحوار نحو مسار بناء. كما يمكن تفعيل الميزة إذا طلب المستخدم صراحة إنهاء التفاعل. في المقابل، شددت Anthropic على أن النماذج لن تستخدم هذه القدرة في الحالات التي قد يكون فيها المستخدم معرضاً لخطر إيذاء نفسه أو الآخرين، حيث تبقى الأولوية للتعامل مع الموقف بطريقة أكثر أماناً.
بهذا التحديث، تواصل Anthropic ترسيخ مكانتها كلاعب رئيسي في مجال الذكاء الاصطناعي، مع طرح رؤى غير تقليدية حول العلاقة بين البشر والأنظمة الذكية، والتفكير في أبعاد مستقبلية تتعلق بما يمكن تسميته “حقوق أو رفاهية النماذج”.




