أصبح الإنترنت مليئا بالخدع والأكاذيب أكثر من أي وقت مضى، وذلك بسبب توفر أدوات يمكن للشخص العادي استخدامها.

وفي الماضي كان تغيير الصوت يتطلب شخصا محترفا قادرا على تغيير صوته لخداع الناس، لكن اليوم وفّر الذكاء الاصطناعي العديد من الأدوات التي تُمكّن أي شخص من تغيير صوته أو إنشاء صوت غير حقيقي بهدف خداع الآخرين.

وجدير بالذكر أن جميع هذه الأدوات تعتمد على ذكاء حاسوبي وليس على ذكاء بشري، مما يجعل اكتشافها سهلا بالنسبة للبشر، ولاكتشاف هذه الخدع سنذكر أهم العلامات التي تستدل من خلالها على الصوت المزيف.

عدم وجود فترات توقف طبيعية

في بعض الحالات، يمكن أن يكون غياب التوقفات الطبيعية مؤشرا على أن الفيديو أو الصوت مولد بواسطة الذكاء الاصطناعي، لكن النماذج الحديثة والمتطورة غالبا لا تعاني من هذه المشكلة، لكن الإصدارات الأقدم أو الأرخص ليست بالمستوى نفسه.

على سبيل المثال، في بعض البودكاست المُنشأ بالذكاء الاصطناعي قد تبدو الأصوات بشرية وتحتوي على تفاصيل مثل التنفس، لكنها تفتقر إلى التوقفات المنطقية أثناء الحديث، وأحيانا لا يكمل أحد المتحدثين جملته قبل أن يقاطعه الآخر.

صحيح أن غياب التوقفات قد ينتج أحيانا عن تحرير سيئ، لكنه في كثير من الأحيان يكون نتيجة لاستخدام نماذج ذكاء اصطناعي قديمة، لذلك، يُفضل الانتباه لهذه العلامة، خصوصا في المحتوى المنشور عام 2023 أو ما قبله.

عدم الاتساق في النطق

صحيح أن الذكاء الاصطناعي جيد في قراءة النصوص، لكن هذا لا يعني أنه يفهم اللغة بالطريقة نفسها التي نفهمها، وأحد أبرز المؤشرات على أن الصوت قد يكون مولدا بالذكاء الاصطناعي هو اختلاف نطق كلمة ما في أكثر من موقف، كما قد تجد كلمة تُنطق بشكل صحيح في جملة، ثم تُنطق بطريقة خاطئة في جملة أخرى.

إعلان

والمتحدث البشري يضبط نطقه وفق السياق والمعنى، بينما الذكاء الاصطناعي يتبع قواعد محددة دون أن يراعي الاستثناءات، فعلى سبيل المثال، كلمة "ذهب" يمكن أن تعني المعدن أو الفعل "يذهب"، والبشر يغيرون النطق حسب المعنى، لكن الذكاء الاصطناعي قد ينطقها صحيحة مرة ثم يخطئ لاحقا.

وفي لغتنا العربية تظهر عيوب النطق بشكل واضح في المقاطع الصوتية المولدة بالذكاء الاصطناعي، وذلك لأن هذه النماذج تدربت بشكل أساسي على اللغة الإنجليزية، لكن بسبب صعوبة اللغة العربية، فإنها دائما ما تُخطئ في اللفظ.

جرّب الدخول مع "شات جي بي تي 5" -آخر نموذج من "أوبن إيه آي"- في محادثة صوتية، واطلب منه تجويد سورة من القرآن الكريم، ستلاحظ أنه سيُخطئ في نطق الكثير من الكلمات رغم أنه أحدث نموذج صدر حتى الآن.

فحص الموجات الصوتية

إن فحص وتحليل الموجات الصوتية يُعد من الطرق الفعالة لاكتشاف الصوت المولد بالذكاء الاصطناعي، ويمكن القيام بذلك باستخدام محرر صوت مثل "أوديوماس" (AudioMass).

وكل ما عليك فعله هو فتح التسجيل الصوتي في الأداة ومراقبة شكل الموجات، وإذا لاحظت أن الموجات متشابهة جدا وواضحة بشكل مفرط، فهذا مؤشر على أن الصوت مولد بالذكاء الاصطناعي، والسبب هو أن التسجيلات البشرية تكون متنوعة وتبدو أكثر طبيعية، بينما يعتمد الذكاء الاصطناعي على أنماط صوتية متكررة ومتجانسة لتكون صوتا مثاليا.

غياب العمق العاطفي في الصوت

رغم أن خوارزميات الذكاء الاصطناعي المتطورة قادرة على تقليد النبرة العاطفية للبشر، فإنها غالبا لا تنجح في إيصالها بدقة كاملة، فالإنسان عندما يتحدث لا ينقل الكلمات فقط، بل يضيف إليها لمسات عاطفية تعكس أفكاره ومشاعره من خلال تغيرات طفيفة ترتكز على نبرة وطبقة الصوت وطريقة النطق.

لذلك، إذا استمعت إلى تسجيل صوتي ولاحظت أن العاطفة لا تتطابق مع مضمون الجملة أو أن النبرة تبدو باهته بلا انفعال، أو أن نهاية الجمل تحمل ارتفاعا طفيفا ومتكررا في الصوت، فهناك احتمال كبير أن يكون هذا الصوت مولدا بالذكاء الاصطناعي.

عدم اتساق الصوت عند تشغيله بسرعة أعلى

إحدى الطرق الشائعة والمفيدة في كشف الصوت المولد بالذكاء الاصطناعي هي زيادة السرعة، فتسريع تشغيل المحتوى الصوتي -مثل تشغيله بسرعة 1.25x أو أكثر- لا يُستخدم فقط للسماع إلى المعلومات بسرعة أكبر، بل يمكن أن يكون طريقة ذكية لاكتشاف الصوت المزيف.

وعند تشغيل صوت مولد بالذكاء الاصطناعي بسرعة أكبر من سرعته الأصلية، ستلاحظ غالبا أن النبرة تصبح آلية أكثر وأقل طبيعية، وكأنك تستمع إلى مقطع ساخر وليس إلى شخص حقيقي، وقد تلمس اختلافات غريبة أو غير متناسقة في النطق والنغمة، خصوصا عند الاستماع لموسيقى أو مقاطع غنائية مولدة بالذكاء الاصطناعي.

حتى لو تمكّن الذكاء الاصطناعي من تقليد صوتك بدقة، فإنه عند زيادة السرعة لن يتمتع بالسلاسة والطبيعة نفسها التي يظهر بها صوتك الحقيقي.

نقاء الصوت المبالغ فيه

التسجيلات الصوتية البشرية تحتوي غالبا على قدر بسيط من الضوضاء الخلفية، حتى في أرقى الأستوديوهات، فقد تكون ناتجة عن طنين خافت للمكان أو صدى طبيعي للصوت على الجدران، أو عيوب طفيفة في التقاط الميكروفون، وهذه التفاصيل تمنح التسجيل إحساسا بالواقعية والحضور.

إعلان

بينما الصوت الذي يُنشئه الذكاء الاصطناعي، عادة ما يفتقر لهذه اللمسات الطبيعية، ويكون أنقى من اللازم، وكأنه مُسجّل في وسط مُخلى من الهواء.

ورغم أن بعض أدوات الذكاء الاصطناعي تحاول محاكاة تأثيرات الميكروفون، فإنها نادرا ما تنجح في إعادة إنتاج الملمس الصوتي الكامل للتسجيل الحقيقي، وحتى إذا أُضيفت ضوضاء خلفية صناعية، فغالبا ما تبدو مسطحة أو عامة.

وهناك إشارة أخرى تكشف الصوت الصناعي وهي تفاعله مع البيئة، لأن الصوت البشري يتأثر بشكل واضح بالمكان الذي يُسجَّل فيه، فالصوت في غرفة صغيرة يختلف عن الصوت في مساحة مفتوحة، أما في التسجيلات المولدة بالذكاء الاصطناعي فقد لا تُرصد هذه الاختلافات بوضوح أو تكون معدومة تماما.

اتبع حدسك

تطور الحدس البشري عبر آلاف السنين ليساعدنا على البقاء، ورغم أن البعض يقلل من أهميته في حياتنا الحديثة، فإنه غالبا ما يكون صحيحا، وعند الاستماع إلى مقطع صوتي يمكنك إجراء تحليلات دقيقة، أو تكرار الاستماع عدة مرات لمحاولة اكتشاف إن كان الصوت مولدا بالذكاء الاصطناعي، لكن أحيانا يكفي أن تشعر بشيء غير طبيعي لتعرف الحقيقة.

إذا كنت مترددا بشأن صوت سمعته وتعتقد أنه نتاج الذكاء الاصطناعي، فغالبا ما يكون إحساسك في محله، وكلما استمعت أكثر إلى محتوى صوتي مولد بالذكاء الاصطناعي، مثل قضاء أسبوع في الاستماع إلى موسيقى مولدة بالذكاء الاصطناعي، ستصبح أكثر قدرة على تمييز الصوت الحقيقي عن المزيف.

إلى جانب الحدس، يمكن الاستعانة بطرق أخرى مثل مقارنة سلوك الصوت مع الكلام البشري الطبيعي، أو البحث عن أخطاء صغيرة، لكن في النهاية يبقى الحدس هو الحكم الأفضل.