يحلل الصور وينتج الصوت والفيديو.. ما الجديد والمدهش حقا في GPT-4؟

محمد يوسف

16/3/2023-|آخر تحديث: 16/3/202301:58 م (بتوقيت مكة المكرمة)

يوم الثلاثاء الماضي، 14 مارس/آذار، أعلنت (1) شركة "أوبن إيه آي" (OpenAI) عن نسختها الجديدة المُنتظرة من أنظمة النماذج اللغوية العاملة بالذكاء الاصطناعي "GPT-4″، وهي النسخة الأحدث من النموذج اللغوي الذي يعتمد عليه روبوت المحادثة الأشهر حاليا "شات جي بي تي" (ChatGPT).

النسخة السابقة كانت "GPT-3.5″، وهي شبكة عصبية تولد النصوص وتتعلم عبر تحديد المليارات من الأنماط المميزة في الطريقة التي يربط بها البشر الكلمات والأرقام والرموز، لتتمكن من توليد النصوص وخلق الردود بالاعتماد على ما تعلمته من ملايين المصادر المتوفرة على شبكة الإنترنت، مثل ويكيبيديا والمقالات والكتب والمحادثات بين البشر.

في البداية، يجب ملاحظة أن نسخة "GPT-4" ستدعم روبوت "شات جي بي تي"، لكنها تدعم النسخة المدفوعة، باشتراك شهري 20 دولارا، ولن تتاح النسخة الجديدة للاستخدام أو التجربة العامة كما حدث مع سابقتها، على أمل أن تتاح في المستقبل للنسخة المجانية. لكن من المفترض أن نسخة "GPT-4" تدعم الروبوت الخاص بمحرك البحث "بينغ"، كما ذكرت شركة مايكروسوفت، منذ إطلاقه للتجربة خلال الشهر الماضي.

Good news, we've increased our turn limits to 15/150. Also confirming that the next-gen model Bing uses in Prometheus is indeed OpenAI's GPT-4 which they just announced today. Congrats to the @OpenAI team. https://t.co/WTVlVCVOyw pic.twitter.com/VA4Z1SDiEG

— Jordi Ribas (@JordiRib1) March 14, 2023

نعرف حاليا مدى قدرة روبوت "شات جي بي تي" في الإجابة عن الأسئلة المعقدة، وكتابة النصوص، وحتى الشعر، وكل هذا بالاعتماد على النموذج الأقدم "GPT-3.5". لذلك كان العالم بأكمله ينتظر الإعلان عن النسخة الأحدث "GPT-4″، بعد توقعات وتكهنات وشائعات كثيرة انتشرت الفترة الماضية حول مدى قوة هذا النموذج الجديد المنتظر. فهل هناك فارق حقيقي حقا؟ وما الجديد الذي يقدمه نموذج "GPT-4″؟

روبوت يرى!

حسنا، الفارق الأول هو أن النموذج الجديد "GPT-4" هو نموذج متعدد الوسائط، أي إنه قادر على تحليل النصوص والصور معا، وهذا هو الفارق الأكبر بينه وبين أسلافه. فعندما تعرض عليه صورة، يمكنه تحليل مكونات تلك الصورة، وربطها بالسؤال الذي تسأله، وتوليد إجابة عن السؤال. فمثلا، يمكنك أن تعرض عليه صورة من محتويات ثلاجتك وتسأله ما الوجبة التي يمكن أن تُحضِّرها، سيقوم الروبوت بتحليل الصورة ومعرفة ما تلك المحتويات، ثم يقترح عليك عددا من الوجبات التي يمكنك تحضيرها بالمكونات الموجودة في ثلاجتك. (2)

يمكننا توقع وجود عدّة تطبيقات لهذه الميزة الجديدة، فمثلا عرضت الشركة إمكانية كتابة كود برمجي بالنموذج الجديد بناء على صورة مُلتقطة لهذا الكود مكتوبا بخط اليد في مفكرة عادية. كما أشارت الشركة إلى قدرة الروبوت على فهم الصور المضحكة وترجمة "الميمز" وما تعنيه وتحديد ما المضحك بها.

وفي التطبيقات العملية، تتعاون شركة "أوبن إيه آي" أيضا مع الشركة الناشئة "Be My Eyes" التي تملك تطبيقا على الهواتف الذكية يستخدم خاصية التعرف على الأشياء بكاميرا الهاتف، أو أشخاص متطوعين، لمساعدة مَن يعانون مشكلات في الرؤية على تحديد معالم البيئة من حولهم، من أجل تطوير تطبيقها باستخدام نموذج "GPT-4″، بهدف زيادة قدرة المتطوع الافتراضي، الذي سيساعد مستخدمي التطبيق في رؤية العالم من حولهم.

ومع أن هذه الخاصية ليست شيئا جديدا أو مختلفا، فهناك تطبيقات تقدم الفكرة نفسها فعلا، لكن "أوبن إيه آي" تؤكد أن نموذج "GPT-4" يمكنه أن يوفر المستوى نفسه من السياق والفهم الذي يقدمه الإنسان المتطوع في التطبيق، ليصف ما يراه من حوله بدقة للمستخدم. مثلا يتعرف التطبيق، بمساعدة نموذج "GPT-4″، على ألوان ثوب ما، ويحدد نوع النباتات، ويشرح كيف يمكن الوصول إلى إحدى الآلات الرياضية في صالة الجيم، ويترجم ملصقا، ويقدم وصفة للأكل، ويقرأ خريطة، وينفذ عددا من المهام الأخرى التي تُظهر أنه يفهم فعلا المحتوى الموجود في الصورة. ميزة التعرف على الصور لن تتوفر الآن للاستخدام العام، قبل تجربتها والتأكد من فعاليتها داخل تطبيق "Be My Eyes" أولا. (3)

منطقي أكثر!

تؤكد "أوبن إيه آي" كذلك أن نموذجها الجديد "GPT-4" أفضل في المهام التي تتطلب إبداعا أو تفكيرا منطقيا، بالطبع هذا ادعاء يصعب التحقق منه إلا بعد التجربة، لكن الشركة تشير إلى أن النموذج الجديد أفضل في بعض العمليات المنطقية الأساسية من نموذج "شات جي بي تي" الحالي، مثل تلخيص نص أو مقال ما. وكما أشارت تجربة صحيفة "نيويورك تايمز"، يقدم النموذج الجديد ملخصا دقيقا وصحيحا للمقال، حتى في حالة إضافة جملة عشوائية إلى الملخص، وعند سؤال الروبوت عن مدى صحة هذا الملخص، فسوف يشير إلى وجود هذه الجملة الدخيلة. (4)

النسخة الجديدة تملك أيضا شخصيات مختلفة، أو ما يُعرف بمصطلح "القابلية للتوجيه" (Steerability) الذي يُشير إلى قدرة الروبوت على تغيير سلوكه وطريقة حديثه عند الطلب. فغالبا عند استخدامك لنسخة "شات جي بي تي" الحالية ستجد أنه يتحدث بنبرة وأسلوب ثابت، لكن في النسخة الجديدة سيتمكَّن المستخدم من طلب شخصية مناسبة للحديث، بأسلوب ونبرة مختلفة حسب طبيعة الشخصية. بجانب أنه يتفوق على النموذج الحالي في اجتياز الاختبارات التي يخضع لها البشر، مثل اختبار القبول في كلية الحقوق. (5)

معالجة أفضل!

مع نموذج "GPT-4" يبلغ الحد الأقصى لعدد الرموز أكثر من 32 ألف توكين، وهو ما يكفي لكتابة قصة قصيرة، أو معالجة ورقة بحثية كاملة في مرة واحدة. (شترستوك)

كما عرفنا، تتدرب هذه النماذج اللغوية الكبيرة على الملايين من صفحات مواقع الويب والكتب والمقالات والبيانات النصية الأخرى، ولكن عندما تُجري محادثة فعلية مع المستخدم، هناك حدود لحجم ما يمكن للنموذج وضعه في الذاكرة القصيرة. لا تُقاس هذه الذاكرة بعدد الكلمات، لكنها تُقاس بالرموز "توكين" (Tokens)، كان هذا الحد في نموذج "GPT-3.5" يصل إلى 4096 توكين، أي نحو 8 آلاف كلمة، أو ما يقرب من أربع إلى خمس صفحات من كتاب، لهذا إن تجاوز الروبوت الحد فقد يفقد مسار المحادثة.

لكن مع نموذج "GPT-4" يبلغ الحد الأقصى لعدد الرموز أكثر من 32 ألف توكين، وهو ما يُترجم إلى نحو 64 ألف كلمة، أو 50 صفحة من النصوص، وهو ما يكفي لكتابة قصة قصيرة، أو معالجة ورقة بحثية كاملة في مرة واحدة. ببساطة، أثناء المحادثة أو خلال كتابة النص، سيتمكَّن الروبوت من الاحتفاظ بما يصل إلى 50 صفحة في ذاكرته القصيرة، أي إنه سيتذكر ما تحدثت عنه في الصفحة العاشرة من المحادثة مثلا، أو عند كتابته لقصة أو مقال طويل، قد يشير إلى الأحداث التي وقعت قبل 20 صفحة. (6)

بالطبع تظل اللغة الإنجليزية هي اللغة الأساسية المسيطرة على عالم البيانات، وخاصة بيانات الذكاء الاصطناعي، لكن نموذج "GPT-4" تَقَدَّم خطوة نحو توفير روبوت محادثة قادر على التحدث بأكثر من لغة، عبر إثبات قدرته على الإجابة عن نحو 14 ألف سؤال من الأسئلة متعددة الخيارات، في 57 موضوعا مختلفا، بدقة عالية بـ26 لغة متنوعة، منها اللغة العربية والإيطالية والتركية واليابانية والكورية. (7)

يُعَدُّ هذا الاختبار المبدئي للقدرات اللغوية للروبوت اختبارا واعدا، ولكنه يظل بعيدا عن القول بقدرة الروبوت على استخدام اللغات المتعددة، لأن معايير الاختبار نفسها تُرجمت من اللغة الإنجليزية، كما أن أسئلة الاختيار من متعدد لا تُمثِّل فعلا المحادثات العادية في سياقها الطبيعي. لكن الجانب المشرق هنا أن النموذج نجح في تخطي اختبار لم يتدرب عليه خصيصا، وهذا أمر مبشر حول إمكانية أن يكون نموذج "GPT-4" أكثر إفادة مع غير المتحدثين باللغة الإنجليزية.

احتمال "الهلوسة الاصطناعية" مثلما حدث مع روبوت المحادثة "بارد" (BARD) الخاص بغوغل نجده أصبح أقل في نموذج "GPT-4" بنسبة 60%. (شترستوك)

ورغم كل ما يقدمه روبوت المحادثة "شات جي بي تي" اليوم، فإن هناك بعض الحيل التي يمكنها تضليله، واستخدامه في أمور ومحادثات مخالفة للقانون. لكن "أوبن إيه آي" تذكر أن نموذجها الجديد تدرب على كثير من التعليمات المسيئة والخبيثة، التي حصل عليها من المستخدمين على مدار الفترة الماضية. وتذكر الشركة أنها أمضت ستة أشهر في جعل نموذج "GPT-4" أكثر أمانا ودقة، وتحسين جودة استجابته بنسبة 82% عن النموذج السابق "GPT-3.5" فيما يتعلق بالأسئلة الخاصة بالمحتوى الممنوع. (8)

كما أن احتمال اختلاقه أشياء ومعلومات غير حقيقية أصبح أقل بنسبة 60%، لكنه ما زال مُعرضا لهذه المشكلة، وهي ما تُعرف بمفهوم "الهلوسة الاصطناعية" التي تحدث عندما يُجيبك الروبوت إجابة واثقة لكن لا يوجد لها مبرر في البيانات التي تدرب عليها، الأمر نفسه الذي حدث مع روبوت المحادثة "بارد" (BARD) الخاص بغوغل عند الإعلان عنه الشهر الماضي. (9)

أدوات ذكية في كل مكان!

حسنا، من الواضح أن النماذج اللغوية الكبيرة بدأت تدخل في كثير من الأدوات التي نستخدمها اليوم، وبجانب محرك البحث مثل "بينغ"، فإن "أوبن إيه آي" أعلنت أنها تتعاون مع عدّة شركات أخرى تستخدم النموذج الجديد "GPT-4" وتدمجه في خدماتها التي تقدمها للمستخدمين، مثل أكاديمية خان التعليمية، التي تهدف إلى استخدام الذكاء الاصطناعي في مساعدة الطلاب أثناء الدورات التعليمية، ومساعدة المدرسين على إنتاج أفكار للدروس. كما أن تطبيق تعلم اللغات الشهير "دولينغو" (Duolingo) دمج النموذج الجديد في خدماته المدفوعة ليقدم تجربة تعليمية تفاعلية مماثلة. (10)

Announcing GPT-4, a large multimodal model, with our best-ever results on capabilities and alignment: https://t.co/TwLFssyALF pic.twitter.com/lYWwPjZbSg

— OpenAI (@OpenAI) March 14, 2023

وفي يوم الإعلان نفسه عن النموذج الجديد، 14 مارس/آذار، أعلنت غوغل أيضا عن مجموعة من مزايا الذكاء الاصطناعي القادمة لتطبيقات الأعمال المختلفة التي تقدمها، مثل مستندات غوغل وجيميل وجداول البيانات. تلك المزايا الجديدة تشمل أساليب مبتكرة لإنشاء النصوص وتلخيصها وطرح الأفكار باستخدام الذكاء الاصطناعي في مستندات غوغل، مثلما يستخدم الكثيرون روبوت "شات جي بي تي" الآن.

هذا كله بجانب إمكانية كتابة رسائل بريد إلكتروني كاملة في تطبيق جيميل استنادا إلى النقاط المختصرة التي يضعها المستخدم، وكذلك القدرة على إنتاج الصور والصوت والفيديو بالذكاء الاصطناعي في تطبيق العروض التقديمية الخاصة بالشركة، أسوة بالمزايا في تطبيق "مصمم مايكروسوفت" (Microsoft Designer)، المدعوم من خدمة توليد الصور "دال-إي" (DALL-E) التي طورتها شركة "أوبن إيه آي". (11)

لهذا، حتى إن لم تُجرب "شات جي بي تي" حتى الآن، فتوقع أن ترى الفترة القادمة تلك الأدوات المدعومة بالذكاء الاصطناعي أمامك في معظم التطبيقات التي تستخدمها في عملك أو في دراستك، وهو خبر جيد على كل حال، فحتى لو لم تكن من متابعي مسيرة الذكاء الاصطناعي فسيكون بإمكانك الحصول على تجربة أفضل في تلك التطبيقات مقارنة بما اعتدته سابقا.

__________________________________________________________

المصادر:

1) GPT-4 is OpenAI’s most advanced system
2) GPT-4
3) Be My Eyes uses GPT-4 to transform visual accessibility
4) 10 Ways GPT-4 Is Impressive but Still Flawed
5) المصدر نفسه 2
6) المصدر نفسه 2
7) المصدر نفسه 2
8) المصدر نفسه 2
9) حرب الذكاء الاصطناعي.. هل انتصرت مايكروسوفت على غوغل؟
10) المصدر نفسه 1
11) A new era for AI and Google Workspace

المصدر : الجزيرة