جيميناي أومني من جوجل: ثورة في مونتاج الفيديو بالذكاء الاصطناعي

جيميناي أومني من جوجل: ثورة في مونتاج الفيديو بالذكاء الاصطناعي

أعلنت جوجل عن عائلة نماذج جديدة للذكاء الاصطناعي تحت اسم "جيميناي أومني"، والتي تتجاوز قدرات نموذج "فيو" الحالي في توليد مقاطع الفيديو، ويبدأ أول هذه النماذج بنموذج "أومني فلاش"، وذلك ضمن فعاليات مؤتمرها الأخير للمطورين.

وتهدف عائلة نماذج "جيميناي أومني" إلى تقديم تجربة مختلفة تماما في توليد مقاطع الفيديو مقارنة بـ"فيو" أو حزمة أدوات "فلو"، حيث أنها قادرة على توليد مقاطع الفيديو مباشرة من خلال الصور ومقاطع الفيديو والنصوص، مما يعني قدرتها على التعامل مع أنواع متعددة من المدخلات.

تجربة مستخدم فريدة مع جيميناي أومني

وتجسد عائلة نماذج "جيميناي أومني" تحولا كبيرا في تجربة استخدام نماذج الذكاء الاصطناعي لإنشاء مقاطع الفيديو، إذ أنها تحرر المستخدم من كتابة الأوامر النصية المطولة وتمنحه القدرة على توليد مقاطع الفيديو بناء على أي نوع من المدخلات.

ويستطيع المستخدم من خلال "جيميناي أومني" معالجة الصور والنصوص ومقاطع الفيديو على حد سواء لإنتاج مقاطع فيديو احترافية تحافظ على المحتوى والشخصيات الأصلية.

ويعني هذا أنه في حال رفع المستخدم صورة إلى الأداة، فإنه سيتمكن من توليد مقطع فيديو للشخص أو الأشكال الموجودة في الصورة واستخدامها بكل تفاصيلها داخل المقطع دون أي فقدان.

وتفتح هذه الإمكانية لمستخدمي "أومني" مجموعة واسعة ومتنوعة من الاستخدامات التي لم تكن متاحة من قبل، والتي كانت تتطلب مستوى عاليا من الاحترافية في كتابة الأوامر الموجهة للذكاء الاصطناعي.

استخدامات متعددة لـ"أومني"

وتتعدد الاستخدامات التي يمكن الاستفادة من "أومني" فيها، بدءا من تعديل مقاطع الفيديو الموجودة مسبقا، وذلك وفقا لتقرير موقع "تيك كرانش" التقني الأمريكي.

وإلى جانب ذلك، يمكن تعديل الصور على غرار أداة "نانو بانانا برو" باستخدام "أومني" مباشرة والاستفادة من القدرات المتطورة التي تقدمها الأداة.

ولا تتطلب عملية تعديل أو مونتاج مقاطع الفيديو أي مهارات أو قدرات خاصة، حيث يكفي أن يصف المستخدم لـ"أومني" التعديلات المطلوبة ليقوم الذكاء الاصطناعي تلقائيا بتعديل المقطع وتحويله إلى مقطع جديد جاهز للمشاركة.

كما يوفر النموذج للمستخدمين إمكانية إنشاء صورة رمزية حقيقية "أفاتار" مطابقة للمستخدم مع استخدام نفس درجة الصوت، ثم تحريك هذه الصورة واستخدامها في مقاطع الفيديو حسب الرغبة، وذلك حسب تقرير "تيك كرانش".

ولكن تظل قدرات "أومني فلاش" محصورة في إنشاء مقاطع فيديو لا تتجاوز مدتها 10 ثوان فقط، وترى جوجل أن المستخدمين لن يرغبوا في إنشاء مقاطع أطول من ذلك حاليا.

واضافت نيكول بريشتوفا مديرة إدارة المنتجات في شركة "جوجل ديب مايند"، أن تقييد مدة المقاطع المنتجة بـ10 ثوان ليس بسبب ضعف النموذج، بل هو قرار يستند إلى الرغبة في إتاحة النموذج لأكبر عدد من المستخدمين.

وتحمل جميع المقاطع التي يتم إنشاؤها باستخدام "جيميناي أومني" علامة مميزة لمقاطع الفيديو المولدة بالذكاء الاصطناعي من جوجل، والتي تسهل على الأدوات والمنصات اكتشافها، وهي "سينث اي دي"، وذلك لحماية المستخدمين من إساءة استخدام الأداة.

وتعود عائلة نماذج "أومني" بالنفع على العاملين في مجال إنتاج مقاطع الفيديو وصناع المحتوى، حيث تقلل الوقت اللازم لتعديل وإنتاج مقاطع الفيديو دون الحاجة إلى تعلم برامج المونتاج المعقدة.

كما أن استخدام "أومني" لا يتطلب أجهزة كمبيوتر متطورة، بل يمكن استخدامه والاستفادة منه مباشرة من خلال تطبيق الهاتف الخاص بـ"جيميناي".

"أومني" مقابل "فيو": ما الفرق؟

ويشير تقرير موقع "ذا فيرج" التقني الأمريكي إلى أن الفرق الرئيسي بين "أومني" و"فلو"، أداة توليد مقاطع الفيديو القديمة من جوجل، يكمن في نوعية المدخلات التي تستطيع كل أداة التعامل معها.

وتستطيع "فيو" التعامل مع الصور والنصوص لإنتاج مقاطع الفيديو، بينما يوسع "أومني" التجربة ليشمل مدخلات متعددة، بما في ذلك الصور ومقاطع الفيديو والصوت والنصوص، بالإضافة إلى تحرير الفيديو بالمحادثة.

وبينما يبدو أن هذا هو الاختلاف الأبرز بين "أومني" و"فلو" من وجهة نظر المستخدم، إلا أن الآلية التي تقف خلف كل أداة مختلفة تماما، وذلك لأن جوجل تصف "أومني" بأنه أقرب إلى نموذج "عالم" بدلا من مجرد نموذج ذكاء اصطناعي تقليدي.

ويكمن الفرق بين نماذج العالم ونماذج الذكاء الاصطناعي التقليدية في قدرة نماذج العالم على فهم والتعامل مع قوانين العالم الطبيعي الفيزيائية والواقعية والالتزام بها إلى حد كبير وتوقع نتائجها على الأشياء الموجودة ضمن النموذج.

ويعني هذا أن مقطع الفيديو الذي سينتجه "أومني" سيكون أقرب إلى الواقع ويلتزم بقوانين العالم الفيزيائية ويتبعها مثل الجاذبية واتجاه حركة الهواء وتأثر الأشياء بالقوة الخارجية وغيرها، مما يزيد من واقعية المقاطع بشكل كبير.

كما أن "أومني" يعتمد على عائلة مختلفة من نماذج الذكاء الاصطناعي التي تقدمها جوجل، حيث يدمج بشكل مباشر بين نموذج الذكاء الاصطناعي اللغوي "جيميناي" والبيانات التي تم تدريبه عليها وبين نماذج توليد مقاطع الفيديو الخاصة بالشركة، وذلك وفقا لتقرير "تيك كرانش".

مخاوف من زيادة قدرات التزييف العميق

وتحاول جوجل وضع مجموعة من القيود والآليات للحد من استخدام "أومني" في إنتاج مقاطع التزييف العميق، مثل وضع العلامة المميزة للكشف عن المقاطع المولدة بالذكاء الاصطناعي "سينث اي دي"، بالإضافة إلى اتخاذ خطوات للتحقق من هوية المستخدم قبل إتاحة عمل "أفاتار" خاص به.

ولكن، تمتلك العديد من الأدوات قيودا مماثلة ولم تكن قادرة على إيقاف انتشار مقاطع التزييف العميق، فهل تستطيع أدوات جوجل التغلب على هذا الأمر؟