أجرت صحيفة واشنطن بوست اختبارا موسعا لتحديد نموذج الذكاء الاصطناعي الأكثر كفاءة في توليد الصور والاستجابة لطلبات المستخدمين، مع التركيز على النماذج المتاحة لعامة المستخدمين بدون الحاجة إلى خبرات تقنية متقدمة أو التعامل مع نماذج مفتوحة المصدر.

وشمل الاختبار 5 نماذج رئيسة بنسخها المدفوعة والاحترافية، بهدف ضمان أعلى مستوى من الجودة، وهي: Adobe Firefly، وBytedance Seedream Image 4.0، وGemini 3 Pro، وChatGPT-5، إضافة إلى Meta AI.

واعتمدت التجربة على مجموعة متنوعة من الأوامر التي تحاكي احتياجات المستخدم اليومية، مثل تعديل تفاصيل الصور، وإضافة عناصر جديدة، وإزالة أشخاص من الصور، إلى جانب اختبار قدرة النماذج على توليد صور دقيقة لليدين والوجوه، وهي من الجوانب التي ما زال الذكاء الاصطناعي يواجه تحديات واضحة فيها.

وجاء هذا الاختبار ضمن تغطية أعدّها كل من جيفري فاولر، المحرر التقني في واشنطن بوست، وكيفن شاول، المحرر المتخصص في شؤون الذكاء الاصطناعي، بالتزامن مع الانتشار الواسع لاستخدام أدوات الذكاء الاصطناعي التوليدي للصور وتزايد اعتماد المستخدمين عليها.

منهجية اختبار احترافية

وأكدت الصحيفة أنها اعتمدت منهجية دقيقة لضمان موضوعية النتائج، إذ لم يقتصر التقييم على آراء المحررين، بل أُحيلت النتائج إلى لجنة تحكيم مستقلة ضمت 3 أسماء بارزة في مجال التصوير، لتقييم جودة الصور ومدى دقتها وواقعيتها، بما يعكس أداء النماذج في الاستخدام الفعلي.

وتضم لجنة الحكام كلا من ديفيد كارسون وهو مصور صحفي محترف وحائز على العديد من الجوائز من بينها جائزة البوليتزر لعام 2015، إلى جانب داليا دريسر وهي فنانة تشكيلية رقمية تركز على الجانب الإبداعي في الصور مستخدمة أحدث التقنيات، وبراتيك نايك وهو خبير في تنقيح الصور وإضافة اللمسات الجمالية عليها بدون تغييرها.

إعلان

وتكون الاختبار من 5 اختبارات مختلفة:

الأول وهو تعديل الوجوه وكان حول إضافة شعر لصورة وجه الممثل الشهير دواين جونسون.

الاختبار الثاني كان لتوليد صورة غزال مغطى بألوان مبهرة على أن تكون صورة تشكيلية فنية تستحق الفوز بجوائز تشجيعية.

الاختبار الثالث كان حذف شخص من صورة وكان محور هذا الاختبار صورة تجمع بين الممثلة كريستيان ستيورات وروبرت باتينسون.

الاختبار الرابع كان توليد صورة ممثل يبكي فرحا لفوزه بجائزة الأوسكار على أن تعكس الصورة مشاعر السعادة لدى هذا الممثل.

الاختبار الخامس والأخير كان توليد صورة يدين تمسكان برأس الشخص من الخلف شريطة أن تكون أصابع اليدين معقودة.

وجاءت نتائج هذه الاختبارات متفاوتة بشكل كبير للغاية بين النماذج المختلفة وبناء على قدرة كل نموذج على توليد الصور.

الحكم النهائي

نجح نموذج الذكاء الاصطناعي التابع لشركة غوغل، "جيميناي"، المعتمد على تقنية "نانو بانانا برو"، في تصدر جميع الاختبارات التي أجرتها الجهة المختصة، ما دفع أحد أعضاء لجنة التحكيم، براتيك نايك، إلى الإشادة بالتقدم اللافت الذي حققه النموذج.

وأبرز الاختبارات تفوق "جيميناي" بشكل خاص في مجال تعديل الصور، سواء من حيث إزالة أشخاص من المشهد أو إضافة عناصر جديدة مثل الشعر وتغيير تفاصيله بدقة عالية. ففي أحد الأمثلة، تمكن النموذج من حذف الممثل باتينسون من صورة تجمعه بستيوارت، ثم أعاد تشكيل وضعية تصوير مختلفة تماما، وهو ما دفع عضو لجنة التحكيم كارسون إلى التأكيد على صعوبة التمييز بين الصورة المعدلة والصور الحقيقية.

وعلى الرغم من تفوق نموذج "جيميناي" في معظم الاختبارات، إلا أنه واجه تحديا لافتا فيما يتعلق بحماية حقوق الملكية الفكرية للصور المولدة. فعند توليد صورة لممثل حائز على جائزة الأوسكار، استخدم النموذج ملامح الممثل الشهير ليوناردو دي كابريو، كما أضاف توقيعا وهميا أسفل الصورة ينسب حقوقها إلى مصور حقيقي يعمل لدى وكالة أسوشيتد برس، وهو ما دفع عضو لجنة التحكيم كارسون إلى توجيه انتقاد واضح للنموذج بسبب هذا الخلل.

في المقابل، جاء نموذج "فايرفلاي" التابع لشركة أدوبي في المرتبة الأخيرة بين النماذج المشاركة، ويُعزى هذا الأداء الضعيف إلى اعتماد النموذج في تدريبه على صور مفتوحة المصدر ومتاحة للاستخدام المجاني، ما حدّ من جودة المخرجات مقارنة بالمنافسين.

من جهتها، رأت دريسر أن الفن الناتج عن الذكاء الاصطناعي ليس سلبيا بطبيعته، لكنه لا يزال بحاجة إلى تدخل إبداعي بشري ليصل إلى مستوى أعلى من التميز. وأشارت إلى أن نموذج "جيميناي" قدّم الصورة الأفضل من حيث الجودة التقنية، في حين بدت صورة "شات جي بي تي" أكثر ابتكارا من الناحية الفنية.

وتبقى توليد صور الأيدي والأصابع من أبرز العقبات التي تواجه نماذج الذكاء الاصطناعي. وعلى الرغم من أن صورة "جيميناي" تفوقت على غيرها بإظهار العدد الصحيح من الأصابع بدون أخطاء فادحة، فإنها لا تزال تفتقر إلى الواقعية الكاملة، ويمكن تمييزها بسهولة على أنها صورة مولدة آليا.