شهدت السنوات الاخيرة تطورا ملحوظا في نماذج الذكاء الاصطناعي التوليدي الصوتي، وتركز المنافسة حاليا بين مدرستين رئيسيتين هما سونو ايه اي وغوغل ديب مايند ليريا.
ولمعرفة الفروق بينهما، قمنا في الجزيرة نت باجراء تجارب ومقارنات كشفت عن بعض النقاط الهامة.
البنية التحتية ونمذجة الصوت
-
سونو: نمذجة التوكنات والانماط
يعتمد سونو في جوهره على هندسة مشابهة للنماذج اللغوية الكبيرة، فهو لا يؤلف الموسيقى كنوتات بل يتنبا بالتوكنات الصوتية التالية بناء على سياق ضخم من البيانات التدريبية.
ويبرع سونو في فهم تراتبية الاغنية، وهو يدرك تقنيا الفرق بين المقطع واللازمة والجسر، مما يجعله قادرا على توليد مقاطع طويلة بانسجام لحني مذهل.
لكن التحدي التقني لسونو يتلخص في انه يعاني احيانا مما يسمى بالضجيج الرقمي، حيث تندمج الترددات الصوتية للالات مع الترددات البشرية مما يصعب عملية الهندسة العكسية او فصل الالات لاحقا.
-
ليريا 3: النمذجة الموجية والنقاء
ليريا المطور من قبل غوغل ديب مايند يستخدم تقنيات متطورة في معالجة الاشارات الرقمية والشبكات العصبية العميقة التي تتعامل مع الموجة الصوتية مباشرة بجودة احترافية.
ويتفوق ليريا في معدل العينة وعمق البت، مما ينتج صوتا كريستاليا يضاهي جودة الاستوديو.
واضافه لذلك ينفرد بتقنية سينث اي دي وهي علامة مائية غير مسموعة تدمج في الموجة الصوتية لحماية الحقوق وتحديد المصدر مما يجعله النموذج الاكثر امانا للمحترفين.
معالجة الموسيقى العربية.. المقامات والايقاع
عند الانتقال للموسيقى العربية تظهر الفجوة التقنية في كيفية معالجة الربع تون والايقاعات المركبة، فسونو يمتلك قاعدة بيانات ضخمة من الاغاني العربية المعاصرة لذا فهو ينجح في محاكاة الروح والاداء والتعبير الصوتي ببراعة خاصة في الانماط الشعبية والبوب.
اما ليريا فهو يركز على فيزيائية الالة فعند طلب عود او قانون يقوم ليريا بمحاكاة رنين الاوتار بدقة مذهلة مما يجعله يتفوق في المقطوعات الالية والموسيقى التصويرية التي تتطلب نقاء فائقا.
وهنا نجد ان هذه التطبيقات تحاول محاكاة المقامات الشرقية عبر موازنة الترددات الرقمية لتلائم ذائقة المستمع العربي، لكن ورغم نجاحها في تقديم الحان متماسكة لغويا ونغميا الا ان تنفيذها يظل معتمدا على الانماط الاحصائية مما يجعلها بارعة في المحاكاة لكنها لا تزال تطارد ذلك السر الخفي الذي يربط مخارج حروف الضاد بروح الارتجال الشرقي الاصيل.
نموذج تطبيقي
لتحقيق اقصى استفادة من هذه التقنيات في مشروع عربي اتبع النماذج التالية:
للحصول على افضل نتيجة من سونو السر يكمن في الوصف الذكي او ما يسمى بالاوامر او التعليمات، اليك الطريقة المثالية لطلب اغنية وكانك مخرج موسيقي:
استخدم الوضع المخصص هذا الوضع هو الاقوى لانه يمنحك تحكما كاملا، وبمجرد تفعيله ستجد الخانات التالية:
- الكلمات يمكنك كتابة كلماتك الخاصة والافضل ان تستخدم وسوم المقاطع لتوجيه الذكاء الاصطناعي مثل:
[Intro] للبداية
[Verse 1] للمقطع الاول
[Chorus] للازمة المقطع المتكرر القوي
[Bridge] لمقطع مختلف في المنتصف يكسر الرتابة
[Outro] للنهاية
- نمط الموسيقى لا تكتف بكلمة واحدة بل صف الشعور والالات.
فاكتب بالتفاصيل كالتالي: بوب عربي اكوستيك عود عاطفي ايقاع بطيء غناء نسائي جودة عالية.
ونصيحة مهمة تجنب كتابة اسماء الفنانين المشهورين فسونو يرفضها احيانا، وبدلا من ذلك صف في خامة الصوت خشن ناعم اثيري قوي.
واذا اعجبتك بداية الاغنية ولكنها انتهت بسرعة اضغط على Extend، وسيتيح لك اضافة مقاطع جديدة بنفس اللحن والروح لتكمل الاغنية.
اما للحصول على الاغنية كاملة فبعد الانتهاء من التمديد يمكنك دمج كل المقاطع في ملف واحد طويل.
اما ان اردت ان تنتج اغنية في ليريا فالتركيز هنا يكون على النسيج الصوتي ويجب عليك ان تتبع التالي:
الوصف التقني: تخت عربي اصيل ناي منفرد بصدى عميق مكبر ميكروفون اولي عتيق من سبعينيات القرن الماضي دفء تناظري جودة صوت 4 كيه.
اما طريقة التنفيذ فابدا بتوليد 30 ثانية من التقاسيم Intro ثم استخدم خاصية Add Section لادخال الكلمات تدريجيا مما يضمن الحفاظ على جودة الالات دون تداخل.
وبعد التجربة ستجد ان الاختلالف كله يكمن بين دقة النغمة في ليريا وطول الاغنية في سونو، وهو امر قد ينتج عنه اندماج مع التطور المستمر لهما، فالعالم يقترب من عصر سيوفر فيه ليريا واجهات برمجية تسمح بتوليد اغان كاملة بينما يحسن سونو من جودة ضغطه الصوتي، اما للمستخدم العربي فالخيار يعتمد على الهدف فسونو مخصص للانتشار والعاطفة وليريا للاحترافية والابداع الصوتي.





