"جي بي تي 4" يفشل في تقليد البشر رغم تطوره
رغم أن "شات جي بي تي" يظهر ذكاء واضحا في المحادثات يجعله يبدو كالإنسان، عبر إظهار الفكاهة ومحاكاة عبارات المراهقين واجتياز امتحانات بعض الكليات، فإنه في بعض الأحيان يظهر وكأنه يهلوس، حيث يكون النص المنشأ صحيحا لغويا ونحويا لكنه غير منطقي، وهو ما جعل هناك اعتقادا بأن الآلة مهما بلغت من التقدم لا يمكنها أن تكون مثل الإنسان.
وللحكم على "شات جي بي تي" بشكل علمي وقاطع وما إذا كان يمكنه الوصول إلى النقطة التي تخدع أي شخص فيعتقد بأنه إنسان، فقد أخضع الباحثان المتخصصان في اللغة وعلم الدلالة والتعلم الآلي بجامعة كاليفورنيا في سان دييغو، كاميرون جونز وبنجامين بيرغن، النسخة الأحدث منه "جي بي تي 4″ لـ"اختبار تورينغ".
واقترح عالم الحاسوب البريطاني آلان تورينغ هذا الاختبار عام 1950، وهو طريقة تجريبية للإجابة على سؤال: هل تستطيع الآلات التفكير؟ وقال إنه إذا لم يتمكن الإنسان من معرفة ما إذا كان يتحدث إلى آلة الذكاء الاصطناعي أو إلى إنسان آخر بعد خمس دقائق من الاستجواب، فإن هذا من شأنه أن يثبت أن الذكاء الاصطناعي يتمتع بذكاء يشبه الإنسان.
وظلت أنظمة الذكاء الاصطناعي بعيدة عن اجتياز الاختبار خلال حياة تورينغ (توفي في 7 يونيو/حزيران 1954)، لكنه توقع نجاحها لاحقا. واليوم بعد مرور أكثر من 70 عاما على وضع هذا الاختبار، تؤكد الدراسة الجديدة للباحثين بجامعة كاليفورنيا والتي نُشرت على موقع ما قبل طباعة الأبحاث "أرخايف"، أن النسخة الأحدث من روبوت الدردشة الآلية (جي بي تي 4) لم تتمكن من اجتيازه بنجاح.
اختبار تورينغ.. لعبة التقليد
وتم تقديم الاختبار عام 1950 بواسطة تورينغ في ورقته البحثية التي حملت عنوان "آلات الحوسبة والذكاء"، والتي أعدها أثناء عمله في جامعة مانشستر، وأطلق عليه اسم "لعبة التقليد"، والهدف منه قياس قدرة الآلة على إظهار سلوك ذكي مكافئ لسلوك الإنسان بدرجة لا يمكن معها تمييزه عن الإنسان.
ويتضمن الاختبار قيام شخص بالحكم على محادثات اللغة الطبيعية بين الإنسان والآلة المصممة لتوليد استجابات شبيهة بالاستجابات البشرية، وسيكون هذا الشخص على علم بأن أحد الشريكين في المحادثة عبارة عن آلة، لكنه لا يعرف أي منهما الآلة، وإذا لم ينجح الشخص في التمييز بين الآلة والإنسان بشكل موثوق، فتكون الآلة قد اجتازت الاختبار.
ولا تعتمد نتائج الاختبار على قدرة الآلة على تقديم الإجابات الصحيحة على الأسئلة، بل على مدى تشابه إجاباتها مع تلك التي قد يقدمها الإنسان.
ويقول كاميرون جونز في حديث لـ"الجزيرة نت" عبر البريد الإلكتروني: إنه "حتى تجتاز الآلة الاختبار يجب أن تكون قادرة على تقليد كل ما يمكن أن يفعله الإنسان في المحادثة، بما في ذلك معرفته وتفكيره وشخصيته وروح الدعابة".
نجاح محدود للآلة
وللتأكد من قدرات "جي بي تي 4" على تجاوز الاختبار، طلب جونز وزميله بالدراسة بنجامين بيرغن، من 650 مشاركا التفاعل مع 1400 محادثة قصيرة، دون أن يعرفوا إن كان مصدر المحادثة على الطرف الآخر بشر أم آلة، وطُلب منهم تحديد مع من يتحدثون.
ووجد الباحثان أن نموذج "جي بي تي 4 " خدع المشاركين بنسبة 41%، وهي أعلى نسبة تحققت في اختبار تورينغ منذ استخدامه، حيث كانت النسبة الأعلى مسجلة باسم نموذج "إليزا" الذي حقق 27%، والنسخة الأقدم من تشات جي بي تي وهي "جي بي تي 3.5" التي حققت 14% فقط.
وخلص الباحثان إلى أن نسبة 41% ورغم أنها الأعلى، فإنها لا تعني بأي حال من الأحوال أن "جي بي تي 4″ نجح في تجاوز اختبار تورينغ الذي شدد الباحثان على أنه يحتفظ بقيمته كمقياس لفعالية الحوار الآلي.
ورغم أن أجهزة الحاسوب تغيرت كثيرا منذ أن وضع تورينغ اختباره قبل 70 عاما، وأصبحت تعمل بطريقة مختلفة تماما، وهو ما يثير انتقادات كثيرة لاستخدام الاختبار إلى الآن؛ فإن جونز كان له تفسير لأسباب الحرص على استخدامه في تلك الدراسة.
ويقول جونز لـ"الجزيرة نت": "الانتقاد الرئيسي للاختبار أنه يمكن اجتيازه بواسطة آلة ذات ذاكرة هائلة تحفظ عبارة لكل موقف، ولكن جي بي تي 4 لا يعمل بهذه الطريقة، فهو يولد الإجابات من خلال معرفة أنواع الكلمات التي تميل إلى اتباع الكلمات الأخرى، وبهذا المعنى، أعتقد أن اختبار تورينغ ينطبق على أنظمة الذكاء الاصطناعي الحديثة، كما ينطبق على أجهزة الحاسوب التي تصورها تورينغ".
ولذلك يشدد جونز على ما قاله وزميله بنجامين بيرغن في تقرير نشره موقع "تيك إكسبلور" على أن "الاختبار له أهمية مستمرة كإطار لقياس التفاعل الاجتماعي والخداع بطلاقة، ولفهم الإستراتيجيات البشرية للتكيف مع الآلة".
ويضيف أن "معدل النجاح البالغ 40% الذي حققه جي بي تي 4 يجعل من المعقول أن تتمكن أنظمة الذكاء الاصطناعي المستقبلية (أو الأنظمة الحالية ذات التعليمات الأفضل)، من اجتياز اختبار تورينغ إذا عولجت أهم الاختلافات التي تم رصدها خلال الدراسة بين البشر و جي بي تي 4، ومنها:
أولا: أنه لا يمكنه الوصول إلى الأحداث الجارية.
ثانيا: يفتقر إلى الشخصية البشرية.
ثالثا: يميل أسلوبه اللغوي إلى أن يكون رسميا جدا أو غير رسمي جدا اعتمادا على المدخلات التي يدخلها المستخدم.
وعلى الرغم من أن هذه المشكلات قد تكون قابلة للحل، فمن الممكن أن يلاحظ المشاركون اختلافات أخرى بين البشر ونماذج الذكاء الاصطناعي إذا لم تعد هذه المشكلات موجودة، كما يوضح جونز.
اختبار رائع.. ولكن
ويرى مصطفي العطار مدير برنامج الذكاء الاصطناعي بجامعة النيل الأهلية بمصر، أنه إذا كان الهدف من مثل هذه الدراسات تقييم التقدم الذي تحرزه نماذج الذكاء الاصطناعي، فإن اختبار تورينغ، ورغم صالحيته للتطبيق حتى الآن، فإنه لا يقيس سوى عنصر واحد فقط، وهو قدرة الذكاء الاصطناعي على إنتاج محادثة شبيهة بالبشر.
وقال العطار في حديث هاتفي مع "الجزيرة نت": هناك مجموعة من الأسباب التي تجعل قدرات هذا الاختبار محدودة إذا أردنا تقييم مدى اقتراب الذكاء الاصطناعي من الذكاء البشري، وهي:
أولا: النماذج اللغوية الكبيرة يتم تصميمها اليوم لتعلن على الفور أنها ليست بشرية، فعلى سبيل المثال، عندما تطرح سؤالاً على شات جي بي تي، فإنه غالبا ما يستهل إجابته بعبارة "كنموذج لغة للذكاء الاصطناعي"، وبالتالي يمكن للمشاركين في الاختبار أن يكونوا قادرين على التمييز إذا نجحوا في التقاط تلك العبارة.
ثانيا: أحيانا تركز نماذج الذكاء الاصطناعي على اللغويات على حساب المعلومات، فتأتيك بصياغة منضبطة تشبه صياغة أديب، لكن المعلومات خاطئة، وهذا ما يسمونه بـ"هلوسة النماذج اللغوية الكبيرة"، وبالتالي يمكن للمشاركين في اختبار تورينغ الانحياز لإجابة نموذج الذكاء الاصطناعي لجمال لغتها، لكنها في النهاية تكون من نتاج "هلوسة" النموذج.
ثالثا: لا يقيس اختبار تورينغ الذكاء البشري بكل أشكاله، وأهمها "الجوانب التخليقية عند البشر"، وبالتالي قد يعطي نتيجة مخادعة لاقتراب الذكاء الاصطناعي من الذكاء البشري.
رابعا: لا يقيس الاختبار أيضا الجوانب العاطفية والفلسفية في التفكير البشري.
خامسا: يُغفل الاختبار قياس أحد جوانب الذكاء البشري، وهو الوعي بالبيئة المحيطة، فأحيانا نشاهد أشياء تجعلنا نغير قناعات راسخة.
سادسا: لا يقيس الاختبار قدرات الذاكرة البشرية طويلة المدى، حيث يمكن للبشر استخدام ما تم تخزينه في الذاكرة منذ سنوات لبناء قرار اليوم، بينما ذاكرة الذكاء الاصطناعي قصيرة المدى.
الحاجة لضوابط تنظيمية
ولذلك يؤكد العطار أن افتقار اختبار تورينغ للقدرة على معرفة مدى امتلاك أنظمة الذكاء الاصطناعي لهذه القدرات، يجعله غير كاف للحكم على اقترابه من الذكاء البشري، إذ إن تقييمه يقتصر فقط على "طريقة المحادثة".
ويشدد على أهمية تطوير اختبارات تعطي نتائج معبرة بشكل أفضل عن قدرات الذكاء الاصطناعي، مشيرا إلا أن العالم بحاجة إلى اقترابه من قدرات الذكاء البشري، ولكن بعد وضع ضوابط تنظيمية تحمي من سوء الاستخدام.
ويقول: "في المجال الصحي مثلا، ومع الزيادة السكانية وقله عدد الأطباء، يمكن أن يصبح الذكاء الاصطناعي القريب من الذكاء البشري مُعينا للطبيب في عمله، لكن ليس بديلا له".
ومن جانبه، يرى مكي حبيب أستاذ الهندسة الميكانيكية ومدير برنامج الدراسات العليا في الروبوتات والتحكم والنظم الذكية بالجامعة الأمريكية بالقاهرة، أن نماذج الذكاء الاصطناعي في طريقها لتجاوز التحفظات التي أشار إليها العطار، باستثناء التفكير الإبداعي.
ويقول في في حديث هاتفي مع "الجزيرة نت": إنه "فيما يتعلق بحجم الذاكرة وسرعة التفكير وسرعة الإجابة الخالية من الهلوسة والوعي بالأحداث الجارية، سيتم تجاوز تلك المشكلات بتدريب تلك الأنظمة على التعلم المعزز (أسلوب يُستخدم في التعلم الآلي لتقليل الأخطاء في تحليل البيانات التنبؤي) بحيث ستكون أذكى من البشر في تلك الجوانب".
ويتفق حبيب مع ما أشار إليه العطار بشأن أهمية الذكاء الاصطناعي، وأضاف أنه "مع وضع ضوابط للسيطرة على جوانبه السلبية، فإن له إيجابيات كبيرة لا يجب أن نحرم أنفسنا منها بالخوف المبالغ فيه من السلبيات".