احذر.. الذكاء الاصطناعي يهدد هويتك الصوتية: كيف تحمي نفسك من التزييف؟

لطالما اعت بر الصوت احد اهم وسائل التحقق من الهوية البشرية، فعندما نتلقى اتصالا هاتفيا من احد افراد العائلة او من مدير العمل او من مسؤول نعرفه، فاننا نميل تلقائيا الى الثقة بما نسمعه، لكن هذا الافتراض الذي استمر لعقود بدا يتهاوى مع ظهور تقنيات استنساخ الاصوات والتزييف العميق المعتمدة على الذكاء الاصطناعي.

اليوم لم يعد المحتال بحاجة الى اختراق جهازك او سرقة كلمة مرورك ليتمكن من خداعك، فبفضل ادوات الذكاء الاصطناعي الحديثة اصبح بامكانه تقليد صوت شخص تعرفه بدقة كبيرة، واقناعك بتحويل الاموال او الكشف عن معلومات حساسة او تنفيذ اوامر تبدو مشروعة تماما.

وقد دفعت هذه التطورات خبراء الامن السيبراني والهيئات التنظيمية حول العالم الى التحذير من موجة جديدة من الجرائم الرقمية تعتمد على استغلال الثقة البشرية اكثر من استغلال الثغرات التقنية.

ما هو التزييف الصوتي العميق؟

التزييف الصوتي العميق هو استخدام تقنيات الذكاء الاصطناعي لانشاء او استنساخ اصوات بشرية تبدو حقيقية للغاية، وتعتمد هذه التقنية على نماذج التعلم العميق التي تدرب على كميات ضخمة من البيانات الصوتية لتتعلم الخصائص الدقيقة للصوت البشري مثل النبرة والايقاع وطريقة النطق والانفعالات.

ووفقا للجنة التجارة الفيدرالية الامريكية فان بعض انظمة استنساخ الاصوات الحديثة تستطيع انشاء نسخة مقنعة من صوت شخص ما باستخدام عينات قصيرة جدا من صوته منشورة على الانترنت او عبر وسائل التواصل الاجتماعي، وتؤكد اللجنة ان هذه التقنية اصبحت متاحة بشكل متزايد للجمهور والشركات والمطورين، مما يزيد من احتمالات اساءة استخدامها.

كيف تعمل تقنية استنساخ الاصوات؟

تمر عملية استنساخ الصوت عادة بعدة مراحل:

1. جمع البيانات الصوتية

يبدا المهاجم بالحصول على تسجيلات صوتية للضحية المستهدفة، وقد تاتي هذه التسجيلات من مقاطع فيديو منشورة على منصات التواصل الاجتماعي، او مقابلات اعلامية، او رسائل صوتية مسجلة، او اجتماعات افتراضية تم تسجيلها.

2. تدريب النموذج

يتم ادخال العينات الصوتية الى نموذج ذكاء اصطناعي متخصص في استنساخ الاصوات، ويقوم النموذج بتحليل الخصائص الفريدة للصوت مثل درجة الصوت، وسرعة الكلام، واللهجة، وطريقة النطق، والانماط العاطفية.

3. توليد الصوت المزيف

بعد انتهاء التدريب يستطيع النظام تحويل اي نص مكتوب الى كلام يبدو وكانه صادر عن الشخص المستهدف نفسه، وتشير ابحاث منشورة الى ان جودة الاصوات الاصطناعية تطورت بشكل كبير خلال السنوات الاخيرة، واصبحت بعض النماذج قادرة على انتاج اصوات يصعب على المستمعين العاديين تمييزها عن الاصوات الحقيقية.

معلومات واحصائيات

تؤكد التقارير الصادرة عن كبرى الجهات الامنية والبحثية ان خطر التزييف الصوتي يتصاعد بشكل مرعب، حيث يشير خبراء الامن في شركة كاسبرسكي الى ان ادوات التزييف العميق الصوتي اصبحت تباع كخدمة في اسواق الانترنت المظلم باسعار زهيدة لا تتعدى بضعة دولارات، مما جعل التكنولوجيا متوفرة للمحتالين الهواة وليس فقط للمجموعات المتقدمة.

كما اصدرت لجنة التجارة الفيدرالية الامريكية تحذيرا رسميا شديد اللهجة للمستهلكين، مؤكدة ان شكاوى الاحتيال عبر انتحال الشخصيات تصدرت قائمة جرائم الاحتيال، حيث تجاوزت الخسائر المادية المليارات، ووصف رئيس اللجنة التزييف الصوتي بالذكاء الاصطناعي بانه "السلاح الاكثر اقناعا في يد المجرمين اليوم".

كما وثقت مختبرات الابحاث الامنية العالمية حالات شهيرة خسرت فيها شركات مبالغ ضخمة، ولعل ابرزها حادثة قيام مدير بنك في احدى الدول العربية بتحويل 35 مليون دولار في عام 2020 بعد تلقيه اتصالا هاتفيا بصوت مستنسخ بدقة لاحد مديري الشركات الكبرى التي يتعامل معها، وحادثة اخرى لشركة طاقة بريطانية خسرت 243 الف دولار جراء انتحال صوت الرئيس التنفيذي للشركة الام عبر الهاتف.

لماذا يصعب اكتشاف الاصوات المزيفة؟

تكمن المشكلة في ان الانسان بطبيعته يربط الصوت بالهوية، وتشير دراسة بحثية الى ان المشاركين في التجارب اخفقوا في التمييز بين الاصوات الحقيقية والمولدة بالذكاء الاصطناعي في نسبة كبيرة من الحالات، واظهرت الدراسة ان ثقة المشاركين في قدرتهم على الاكتشاف كانت اعلى من قدرتهم الفعلية على ذلك.

ويعود ذلك الى عدة اسباب: التطور السريع في نماذج الذكاء الاصطناعي، وقدرة الانظمة على محاكاة الانفعالات البشرية، واعتماد البشر على السياق الاجتماعي والثقة المسبقة، ومحدودية قدرة الاذن البشرية على اكتشاف الفروق الدقيقة.

استراتيجيات الحماية

لمواجهة هذا التهديد المتطور، لا بد من تبني استراتيجية امنية متعددة الطبقات تشمل الجوانب الانسانية والتقنية والمؤسساتية.

1. على المستوى العائلي والشخصي

بروتوكول "كلمة السر العائلية": اتفاق افراد العائلة في الغرف المغلقة على كلمة سر عشوائية تماما مثلا "السقف الازرق" او "القطة المشمسة"، وفي حال تلقي اي مكالمة طوارئ من اي فرد يطلب مالا او مساعدة، يتم مطالبته بكلمة السر فورا، واذا تعذر او ارتبك، يغلق الخط فورا.

قاعدة "اتصل انت": عند تلقي اي مكالمة مريبة من صديق، او بنك، او قريب، يجب انهاء المكالمة فورا، والانتظار لمدة دقيقة، ثم اعادة الاتصال بالشخص عبر رقمه المحفوظ في قائمة الاتصال الخاصة بك، وليس عبر تتبع الرقم الذي اتصل بك لتجنب تقنيات تزييف ارقام المتصلين المتقدمة.

تقنين البصمة الصوتية العامة: تجنب نشر مقاطع فيديو او تسجيلات صوتية طويلة وواضحة على الحسابات العامة غير المحمية في وسائل التواصل الاجتماعي، حيث تمثل هذه المقاطع المناجم الاساسية التي يتغذى عليها المحتالون لجمع عينات اصواتكم.

2. على مستوى الشركات والمؤسسات

اعادة هيكلة الصلاحيات المالية: ومنع اعتماد اي تحويل مالي او بروتوكول حساس بناء على امر صوتي منفرد حتى لو كان من رئيس مجلس الادارة، ويجب تفعيل نظام "الموافقة المزدوجة المتعددة القنوات"، بحيث يتبع الامر الصوتي تاكيدا عبر بريد الكتروني مشفر او توقيع رقمي (Digital Signature).

دورات محاكاة التصيد الصوتي (Vishing Simulations): اخضاع الموظفين، لا سيما في الاقسام المالية والموارد البشرية، لتدريبات دورية واختبارات فجائية بمكالمات مزيفة عبر الذكاء الاصطناعي، لرفع حساسية التشكيك والنقد لديهم.

3. الحلول التقنية والبرمجية

انظمة كشف التزييف العميق البيومترية، حيث تدمج الشركات الكبرى الان برمجيات تحلل البصمة الصوتية في الخلفية اثناء المكالمات، وهذه البرمجيات لا تبحث عن نبرة الصوت، بل تبحث عن "الاثار الرقمية" والترددات غير البشرية التي تتركها خوارزميات الذكاء الاصطناعي اثناء توليد الصوت، والتي لا تستطيع الاذن البشرية المجردة التقاطها.

يؤكد الخبراء ان الذكاء الاصطناعي احدث ثورة هائلة في مجال انتاج المحتوى الرقمي، لكنه في الوقت نفسه اوجد تحديات امنية غير مسبوقة، فالصوت الذي كان ينظر اليه باعتباره بصمة شخصية فريدة اصبح من الممكن استنساخه خلال دقائق باستخدام ادوات متاحة على نطاق واسع.

ومع تزايد الاعتماد على الاتصالات الرقمية والعمل عن بعد والخدمات الالكترونية، اصبحت القدرة على التحقق من الهوية اكثر اهمية من اي وقت مضى.