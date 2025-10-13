نشرت صحيفة واشنطن بوست تحقيقا مطولا حول البيانات التي استخدمتها شركة "أوبن إيه آي" لتدريب نموذج الذكاء الاصطناعي التوليدي لمقاطع الفيديو "سورا" (Sora) وهو النموذج ذاته الذي طرحت منه الشركة الجيل الثاني وأثار ضجة عالمية في الآونة الأخيرة.

ويرى كيفن شاول المختص في قطاع الرسوميات عبر الذكاء الاصطناعي لدى الصحيفة الأميركية أن الشركة استخدمت البيانات التي تمكنت من الوصول إليها عبر الإنترنت دون الحصول على إذن من مالكيها الأصليين.

ويشير التقرير إلى تصريح سابق من تيم بروكس القائد المشارك لمشروع "سورا" عام 2024، إذ أوضح أن الشركة استخدمت جميع البيانات التي وصلت إليها في صيغتها الأصلية.

ومن جانبها، اكتفت "أوبن إيه آي" بذكر أنها استخدمت البيانات ومقاطع الفيديو المتاحة للعامة عبر الإنترنت فضلا عن المقاطع التي يمكن الحصول على الرخص اللازمة لها، دون توضيح مصدر مباشر لهذه المقاطع.

وتجدر الإشارة إلى أن "أوبن إيه آي" اتبعت أسلوبا مماثلا أثناء تطويرها لنموذج الذكاء الاصطناعي "شات جي بي تي" إذ قامت بجمع البيانات من كافة المصادر الموجودة عبر الإنترنت.

ولم يقتصر تقرير الصحيفة على التصريحات السابقة للشركة، بل ضم تجربة عملية قامت بها "واشنطن بوست" في محاولة لإعادة إنشاء مئات مقاطع الفيديو من الأفلام ومسلسلات التلفاز وحتى بعض مقاطع الفيديو الشهيرة عبر يوتيوب.

إنشاء مقاطع مطابقة للمصادر

تمكن فريق "واشنطن بوست" من إعادة إنشاء العديد من المقاطع التي تستخدم مصادر معروفة وواضحة، مثل إعادة إنشاء مشاهد من مسلسل "وينزداي" (Wednesday) الشهير المعروض في منصة نتفليكس فضلا عن إنشاء شعارات العديد من الشركات الشهيرة مثل "ورانر برذرز" أو "دريم وركس".

وامتد الأمر إلى إمكانية إنشاء مقاطع تحاكي الألعاب الشهيرة والتي يمكن العثور عليها بكثرة في "يوتيوب" مثل "ماين كرافت" وبعض الألعاب الأخرى إلى جانب الشخصيات الكرتونية الشهيرة.

كما أن النموذج استطاع توليد مقاطع فيديو تحمل العلامات المائية وشعارات العديد من الشبكات الإخبارية البارزة حول العالم، بما في ذلك اتحاد كرة السلة الأميركي ومقاطع من "تيك توك" تحمل العلامة المائية ذاتها.

وتجدر الإشارة إلى أن "سورا" كان قادرا على توليد مقاطع تحاكي رقصات "تيك توك" الشهيرة بشكل يجعلها أقرب إلى الحقيقة، وهو ما يؤكد استخدام الأداة لهذه المقاطع الموجودة في المنصة.

ومع طرح نموذج "سورا 2" الذي يمتاز بإمكانية توليد الأصوات مع مقاطع الفيديو، أصبح الأمر أكثر وضوحا أن الشركة اعتمدت على منصات بث الفيديو المختلفة لتدريب نموذجها.

وظهرت في الآونة الأخيرة مجموعة مقاطع فيديو متنوعة تضم شخصيات بارزة ومشهورة عالميا تتحدث عن أشياء غير حقيقية تماما، ولكن صوتها يبدو أقرب إلى الشخصية الحقيقية.

ويشير التقرير إلى أن "نتفليكس" و"تويتش" لم تقوما بتزويد "أوبن إيه آي" بأي مقاطع تابعة لهم ليتم استخدامها في تدريب النموذج على توليد مقاطع جديدة.

التدريب على أكثر من 70% من مقاطع "يوتيوب"

وقامت جوانا ماتيرزينسكا، باحثة حاصلة على درجة الدكتوراه في معهد ماساتشوستس للتكنولوجيا والتي درست مجموعات البيانات المستخدمة في الذكاء الاصطناعي، بالمشاركة في دراسة العام الماضي حول البيانات المستخدمة في تدريب نماذج الذكاء الاصطناعي.

ووجدت هذه الدراسة أن 70% من مكتبات البيانات المستخدمة في تدريب نماذج الذكاء الاصطناعي قادمة بالأساس من "يوتيوب" وهو الأمر الذي يخالف سياسة استخدام "يوتيوب" بشكل صريح.

ولا ينطبق هذا على "أوبن إيه آي" فقط، إذ أشار التقرير إلى "إنفيديا" ونموذج "ران واي" (Runway) اعتمادا على مقاطع من "يوتيوب" لتدريب النموذج النهائي الخاص بهم، وذلك رغم أن "إنفيديا" أكدت احترامها لحقوق صناعي المحتوى ومراعاتها لسياسة الاستخدام لكل منصة.

كما نشرت "غوغل" في تدوينة سابقة أنها تعتمد على مقاطع "يوتيوب" لتدريب النماذج الخاصة بها، ولكنها تأتي بشكل يراعي قوانين وقواعد استخدام المنصة.

ومن جانبها، وضحت "يوتيوب" على لسان جاك مالون المتحدث الرسمي باسم المنصة أن النسخ غير المصرح به لمحتوى المنصة يعد انتهاكا لشروط الخدمة الخاصة بها.

"سورا 2" والتدريب المجتمعي

قررت "أوبن إيه آي" اتباع نهج مختلف قليلا مع "سورا 2" إذ حولت الأداة إلى ما يشبه منصة تواصل اجتماعي لمشاركة مقاطع الفيديو الخاصة بالمستخدمين والتي يتم توليدها عبر الأداة.

وتركت للمستخدمين حرية رفع مقاطع فيديو خاصة بهم ليتم تدريب النموذج عليها، وإعادة استخدامها سواء من قبل المستخدم نفسه أو أي مستخدم في العالم كملكية عامة للشركة.

وبينما تحل هذه الخطوة جزءا من الأزمة المتعلقة بحقوق الملكية في الأداة، إلا أنها لا تعالج الأزمة الرئيسية وهي البيانات التي تم تدريب النموذج الاولي بها وبناء الجيل الثاني عليها.