يبذل العلماء جهودا كبيرة لتطوير ما يسمى نظام "الرؤية الحاسوبية" التي تستند إلى تقنيات الذكاء الاصطناعي وتجعل الحاسوب قادرا على وصف الصور بعبارات مفهومة، ورغم أن معظم تلك الأنظمة تجد صعوبة بمجاراة قدرة الإنسان في التعرف على الصور ووصفها بعبارات بسيطة فإن هذا الأمر في طريقه إلى التغير.

فقد طوّرت مجموعتان من العلماء من جامعة ستانفورد وشركة غوغل برنامجا للذكاء الاصطناعي بمقدوره إدراك ووصف محتويات الصور العادية والفيديو بدقة عالية جداً لم تبلغها أنظمة "الرؤية الحاسوبية" المُطورة مسبقا، وبدرجة تُضاهي في بعض الأحيان قدرة الإنسان على فهم المشهد ووصفه.

وتنحصر قدرة أنظمة "الرؤية الحاسوبية" الموجودة بأيامنا هذه في إدراك الأشياء مُنفرِدةً، في حين يستطيع البرنامج الذي كشف عنه الباحثون تعليم نفسه والتعرف على مشهد معين ووصفه بالتفصيل.

ويستطيع البرنامج وصف الصورة بتعليق بالإنجليزية بشكل وصفه الباحثون بأنه دقيق ويضاهي أسلوب الإنسان، كأن يُشاهد الحاسوب صورة لأشخاص يلعبون الكرة ويصفها بأنها "تضم مجموعة من الشبان يلعبون كرة القدم، أو يتعرف على صورة أُخرى ويصفها بأنها "تضم قطيعا من الفيلة التي تمشي على العُشب الأخضر".

ووظف باحثو غوغل وجامعة ستانفورد تقنية الشبكات العُصبونية لتطوير نظامين، يستطيع أحدهما التعرف على الصور في حين يستطيع الآخر فهم لغة الإنسان، وتم تدريب هذين النظامين بإدخال مجموعات من الصور الرقمية المُرفقة بتعليقات كتبها الإنسان.

وبعد أن تم تدريب البرمجيات على فهم الصور والتعليقات المرفقة معها، أُدخلَت صور جديدة إلى النظام، استطاع التعرف عليها، على الرغم من عدم تلقيه كميات كبيرة من بيانات التدريب، وفق ما أوضح عالم الحاسوب لدى غوغل، أوريول فينالس.

وتضم الصور ومقاطع الفيديو الكثير من العناصر المعقدة، مما يجعل التعرف عليها وفهم واستخلاص الموقف الظاهر في المشهد أمرا صعبا، وفقا لعالمة الحاسوب بجامعة كارولاينا الشمالية، تمارا بيرغ، التي تدرب الشبكات العُصبونية بإدخال صور مرفق معها تعليقات مكتوبة، وتعتزم "بيرغ" إدخال مليون صورة لتدريب النظام.

ويتوقع فريقا أبحاث ستانفورد وغوغل تحسن دقة النظام في التعرف على الصور بشكلٍ كبير في الفترة القادمة، وذلك من خلال تطوير البرنامج وتدريبه بإدخال أعداد كبيرة من الصور. 

التقنية الجديدة تُسهّل البحث عن المطلوب من بين مليارات الصور ومقاطع الفيديو (الأوروبية-أرشيف)

إمكانات واعدة
إن من شأن الابتكار الجديد تسهيل عملية تصنيف الصور والبحث عن الصورة أو الفيديو المطلوب من بين مليارات الصور ومقاطع الفيديو على شبكة الإنترنت بشكل يُسرع من عملية البحث.

وسيصبح من الممكن البحث داخل محتويات الصور والفيديو، بتفوق واضح على طريقة البحث المعتمدة حاليا في محركات البحث التي تستند إلى الوصف الكتابي للصورة دون البحث في محتواها، وفق ما أشارت مُديرة مُختبر الذكاء الاصطناعي بجامعة ستانفورد، في-في لي التي تقود الفريق المُطور للبرنامج الجديد.

ومن المُتوقع أن يُسهم الابتكار بالوصول إلى تقنيات تساعد فاقدي الإبصار والروبوتات على التحرك بسهولة أكثر، ومن الممكن أيضا أن يساعد في توفير الحماية للمُنشآت والأماكن العامة، فهذه التقنية لا تسمح فقط بالتعرف على الوجوه، بل على سلوك الأشخاص في المشهد أيضا، مما يوفر إمكانية لإبلاغ السلطات عند التقاط أي سلوك مُريب.

وفي تعقيب له حول الابتكار الجديد، أشار عالم الحاسوب بجامعة واشنطن، علي فرهادي، إلى أهمية النظام كونه يستطيع التعرف على المشهد كاملا، أي التعرف على الأجسام داخل المشهد والأفعال التي تقوم بها.

يُشار إلى أن أنظمة الذكاء الاصطناعي بدأت بالظهور في بعض السيارات الحديثة التي باتت تستطيع التعرف على المُشاة وسائقي الدراجات بالاستفادة من كاميرات خاصة، وبالتالي تتمكن من التصرف بذكاء والتوقف تلقائياً عند أي اصطدام مُحتمل.

المصدر : البوابة العربية للأخبار التقنية