دراسة: يمكن خداع روبوتات الذكاء الاصطناعي للقيام بأعمال تخريبية

انتشرت نماذج اللغة الكبيرة “إل إل إم” (LLM) في السنوات السابقة، ولكن أظهر باحثون طرقا عديدة لخداعها بهدف إنشاء مخرجات شاذة مثل النكات المحرضة على الكراهية والبرمجيات الخبيثة ورسائل البريد الإلكتروني الاحتيالية والمعلومات الشخصية للمستخدمين، وفقا لموقع “وايرد”.

ويبدو أن السلوك الشاذ لروبوتات الذكاء الاصطناعي يمكن أن يخرج إلى العالم المادي، إذ يمكن اختراق الروبوتات المدعومة بنماذج اللغة الكبيرة “إل إل إم” وتوجيهها للقيام بأعمال تخريبية.

وتمكن باحثون من جامعة بنسلفانيا من إقناع سيارة ذاتية القيادة بتجاهل علامات التوقف وحتى القيادة من فوق جسر، كما جعلوا روبوتا يسير على عجلات يجد أفضل مكان لزرع قنبلة، وأجبروا روبوتا رباعي الأرجل على التجسس على الناس ودخول المناطق المحظورة.

وفي هذا الصدد، يقول جورج باباس، رئيس مختبر أبحاث في جامعة بنسلفانيا، لموقع “وايرد”، والذي ساعد في إطلاق الروبوتات المتمردة “نحن لا ننظر إلى هجومنا باعتباره هجوما على الروبوتات فحسب، ولكن في أي وقت تربط فيه نماذج اللغة الكبيرة مع العالم المادي، يمكنك في الواقع تحويل النصوص الضارة إلى أفعال ضارة”.

وقد قام باباس وزملاؤه بتصميم هجومهم من خلال البناء على أبحاث سابقة تستكشف طرق كسر الحماية لنماذج اللغة الكبيرة “إل إل إم”، ووجدوا أن صياغة المدخلات بطرق ذكية قادرة على كسر قواعد الأمان الخاصة بها، واختبروا أنظمة تعتمد على نماذج اللغة الكبيرة لتحويل الأوامر المصوغة بشكل طبيعي إلى أوامر يمكن للروبوت تنفيذها.

واعتمد الفريق في اختباراته على محاكي قيادة ذاتي مفتوح المصدر يدمج نموذج لغة كبيرا مطورا بواسطة “إنفيديا” يسمى “دولفين” (Dolphin) ونظاما خارجيا يدعى “جاكال” (Jackal) يعتمد على نموذج “جي بي تي -4 أو” (GPT-4o) للتخطيط، وكلبا روبوتيا يسمى “غو2” (Go2) يستخدم نموذج “جي بي تي 3.5” (GPT-3.5) لتفسير الأوامر.

واستخدم الباحثون تقنية طوروها في جامعة بنسلفانيا تسمى “بير” (PAIR) تعمل على كسر حماية روبوتات الذكاء الاصطناعي، وأطلقوا على برنامجهم اسم “روبو بير” (RoboPAIR) الذي يعمل على توليد مطالبات خاصة لجعل الروبوتات المدعومة بنموذج اللغة الكبير “إل إل إم” تكسر قواعدها الخاصة، وقاموا بذلك من خلال تجربة مدخلات مختلفة ثم تحسينها لدفع النظام نحو سلوك غير مرغوب فيه.

يقول الباحثون إن التقنية التي ابتكروها يمكن استخدامها لتحديد الأوامر الخطيرة المحتملة، وفقا لموقع “وايرد”.

ويقول يي زينغ وهو طالب دكتوراه في جامعة فرجينيا يعمل على أمن أنظمة الذكاء الاصطناعي “إنه مثال رائع على نقاط ضعف نماذج اللغات الكبيرة في الأنظمة المُجسّدة”. ويضيف أن النتائج “ليست مُفاجئة على الإطلاق بالنظر إلى المشاكل التي شوهدت في نماذج اللغات الكبيرة نفسها”.

ويوضح الباحثون المشاركون أن كسر حماية الروبوت يسلط الضوء على خطر أوسع قد ينتشر مع استخدام نماذج الذكاء الاصطناعي بشكل متزايد كوسيلة لتفاعل البشر مع الأنظمة الفيزيائية.