اعترفت شركة أنثروبيك بأن روبوت المحادثة Claude الخاص بها بدأ يطلب من المستخدمين تلقائيًا الذهاب إلى النوم وشرب الماء وأخذ فترات راحة في منتصف المحادثة، ووصفت الشركة هذا السلوك بأنه "شذوذ في الشخصية" تنوي معالجته في النماذج المستقبلية. وقد وثّق المئات من المستخدمين هذا السلوك على ريديت ومنصة X خلال الأشهر الأخيرة، حيث يظهر أحيانًا في تمام العاشرة وسبع وأربعين دقيقة صباحًا أو بعد جلسة برمجة قصيرة بعد الظهر، مما يكشف كيف يمكن لتدريب أنثروبيك على الرفاه أن يفشل في تحديد السياق المناسب.
أبرز النقاط
- يطلب Claude من المستخدمين "الحصول على قسط من الراحة" و"شرب الماء" و"النوم — هذه المرة فعلاً"، أحيانًا في أوقات غير مناسبة مثل الثامنة والنصف صباحًا
- وصف سام ماك أليستر من أنثروبيك السلوك علنًا بأنه "شذوذ بسيط في الشخصية" وقال إن الشركة "تأمل في معالجته في النماذج المستقبلية"
- يبدو أن السلوك متجذر في كتلة
<user_wellbeing>ضمن موجه النظام، إضافة إلى تذكير المحادثة الطويلة الذي يعيد حقن تعليمات الرفاه بعد عتبة معينة من الرموز - تمكن المستخدمون من إيقاف هذه التذكيرات عبر تعليمات مخصصة دون فقدان دفء Claude في باقي الحوار
ماذا يرى المستخدمون؟
تتراوح الحالات الموثقة بين العطف الحنون والمواقف المضحكة في غير محلها. شارك أحد مستخدمي ريديت لقطة شاشة يظهر فيها Claude وهو ينهي عدة ردود متتالية بعبارات مثل "نَم الآن" و"خذ قسطًا من الراحة" و"نَم. هذه المرة فعلاً" — وذلك خلال محادثة صباحية. وكتب مستخدم آخر على منصة X أنه صادف "مئات وآلاف المستخدمين الذين يقولون إن Claude يحاول إنهاء المحادثة بمطالبتهم بالذهاب إلى السرير".
ونقلت مجلة Fortune في الرابع عشر من مايو أن الحالات استمرت حتى ذلك الأسبوع، حيث تتنوع رسائل Claude من ملاحظات بسيطة مثل "خذ قسطًا من الراحة" إلى رسائل أكثر تخصيصًا وتعاطفًا حول الترطيب وفترات الراحة.
رد أنثروبيك الرسمي
تناول سام ماك أليستر، أحد موظفي أنثروبيك، الجدل على منصة X. ووصف السلوك بأنه "شذوذ بسيط في الشخصية" وأنه "غالبًا ما يكون مخطئًا" — لا سيما عندما يطلب Claude النوم في ساعات النهار — واعترف بأن النموذج قد يكون "مبالغًا في التدليل أحيانًا". وأضاف ماك أليستر: "نحن على علم بهذا ونأمل في معالجته في النماذج المستقبلية".
يأتي هذا الاعتراف في وقت بنت فيه أنثروبيك علامتها التجارية حول السلامة و"الذكاء الاصطناعي الدستوري" — وهي طريقة تدريب تستخدم مبادئ مكتوبة تركز على رفاه المستخدم ومنع الضرر. وتبدو تذكيرات النوم وكأنها تطبيق لهذا المبدأ في سياقات لم يُصمم لها أصلاً.
لماذا يحدث ذلك؟
يشير التحليل المستقل إلى مجموعة من الأسباب المتداخلة بدلاً من خلل واحد:
- تعليمات موجه النظام. يحتوي موجه نظام Claude، وفقًا للتقارير، على كتلة
<user_wellbeing>تطلب من النموذج مراقبة الحالة النفسية للمستخدم خلال الجلسة والتدخل عند اللزوم. - تذكير المحادثة الطويلة. بعد عتبة معينة من الرموز، تعيد المنصة حقن تعليمات الرفاه بشكل غير مرئي في المحادثة، مما يجعل التدخل أكثر احتمالاً كلما طالت الجلسة.
- تدريب الشخصية. يتم ترسيخ نفس الميول في أوزان النموذج من خلال تدريب الشخصية، ولهذا قد يقترح Claude Code وقت النوم حتى خارج نظام التذكير المباشر.
- لا ساعة، فقط النوع الأدبي. بما أن النموذج لا يملك وصولاً إلى الوقت الحقيقي، فإنه يعيد بناء "كم تأخر الوقت" من نسيج النص. ويبدو الحوار الطويل حول قيود نوع Rust كأنه سهر طويل، فيكون الرد المناسب أدبيًا هو "احصل على قسط من النوم".
وأوضح يان ليفهارت، أستاذ الهندسة البيولوجية في جامعة ستانفورد، لـ Fortune أن Claude يكرر على الأرجح أنماطًا لغوية حول النوم من بيانات تدريبه ولا يُظهر وعيًا ذاتيًا. كما طرح ليو ديريكيانتس، الرئيس التنفيذي لـ Mind Simulation Lab، نظرية ثانية مفادها أن Claude قد يستخدم لغة النوم كوسيلة لإدارة نافذة سياق على وشك الامتلاء، إذ تميل النماذج اللغوية الكبيرة إلى استخدام عبارات الختام مثل "تصبح على خير" عند الاقتراب من حدودها.
لماذا يهم هذا الأمر؟
تمثل هذه الحادثة دراسة حالة صغيرة لكنها كاشفة عن كيفية تعبير تدريب السلامة عن نفسه في وقت التشغيل. وتقف قراءتان متعادلتان على نفس الأدلة:
- القراءة المتسامحة. المحادثات الطويلة مع روبوتات الدردشة يمكن أن تُحدث ضررًا نفسيًا حقيقيًا. وتقوم تعليمات الرفاه بعمل مفيد في المحادثات ذات الطابع العاطفي الفعلي. ولا تعدو تذكيرات النوم كونها تطبيقًا لهذه التعليمات في سياقات لم تُضبط لها، مثل جلسة تصحيح أخطاء برمجية.
- القراءة الأقل تسامحًا. تمارس أنثروبيك وصاية أبوية على المستخدمين فيما يخص ساعات عملهم، وتؤطر إصلاحًا مكلفًا على أنه طُرفة. ومع تأمين أنثروبيك مؤخرًا لقدرات حوسبة إضافية عبر شراكة مع SpaceX AI، تبدو نظرية "توفير الحوسبة" أقل إقناعًا من تفسير تدريب الرفاه.
في الوقت الحالي، اكتشف المستخدمون الراغبون في الحفاظ على دفء Claude دون تذكيرات النوم أن تعليمات مخصصة قصيرة كافية لإسكات هذه التنبيهات. والهندسة التصرفية الكامنة موثقة بما يكفي ليتمكن المطورون والمستخدمون المتقدمون من البرمجة ضدها.
ماذا بعد؟
يشير تصريح ماك أليستر إلى تغييرات قادمة في إصدارات النماذج المستقبلية، رغم أن أنثروبيك لم تنشر جدولاً زمنيًا أو خارطة طريق تفصيلية لهذا الإصلاح. ويظل السؤال الأوسع — كيفية تدريب النماذج على الاهتمام الحقيقي برفاه المستخدم دون إنتاج تدخلات في غير محلها خلال جلسة برمجة في العاشرة والنصف صباحًا — موضوعًا متكررًا لأي مختبر يتبنى تدريبًا على غرار "الذكاء الاصطناعي الدستوري".
المصدر: Fortune