مايكروسوفت تكشف عن تقنية مبتكرة.. نموذج جديد لتحويل الصورة إلى فيديو “VASA-1”
منذ الإعلان عن نموذج جديد للذكاء الاصطناعي من مايكروسوفت شهدنا قفزة كبيرة في مجال توليد المحتوى المعتمد على الذكاء الاصطناعي، حيث يتيح النموذج الذي تم الإعلان عنه من قبل مايكروسوفت إنشاء مقاطع فيديو واقعية للغاية تظهر فيها وجوه بشرية تتحدث بشكل طبيعي وشبه مثالي وتمثل هذه الخطوة تقدماً هائلاً في تطبيقات الذكاء الاصطناعي في صناعة المحتوى، حيث يمكن استخدام هذه التقنية في مجموعة متنوعة من المجالات مثل الإعلانات والتعليم والترفيه وإليك كافة التفاصيل فيما يلي.
إطلاق نموذج جديد من مايكروسوفت لتحويل الصورة إلى فيديو
أعلنت شركة مايكروسوفت عن نموذج جديد للذكاء الاصطناعي VASA-1، حيث يمكن لنموذج VASA-1 المدعوم بالذكاء الاصطناعي تحويل صورة واحدة فقط إلى مقاطع فيديو مصحوبة بمقطع صوتي يتضمن الكلام، وقد أكدت الشركة أن مقاطع الفيديو المنشأة تتمتع بحركات الشفاه المتزامنة مع الصوت بالإضافة إلى تعبيرات الوجه وحركة الرأس مما يمنحها طبيعية واقعية.
وعلى الرغم من تطوير شركة مايكروسوفت لنموذج VASA-1 الذي يمتلك قدرات استثنائية في توليد مقاطع الفيديو، إلا أنها لا تعتزم إطلاق منتج أو واجهة برمجة تطبيقات للاستفادة من هذه التكنولوجيا، نظرًا للخطر الكبير المتمثل في توليد التزييف العميق بهذه التقنية، وقد قدمت الشركة شرحاً مفصلاً لطريقة عمل نموذج الذكاء الاصطناعي VASA-1، مع التركيز على قدراته حيث يمكن للنموذج توليد مقاطع فيديو بدقة تصل إلى 512×512 بكسل، بمعدل يصل إلى 40 إطاراً في الثانية.
إليكم طريقة عمل النموذج وبعض الأمثلة:
كما يتيح نموذج الذكاء الاصطناعي توليد مقاطع الفيديو عبر الإنترنت بزمن قصير مع توفير ما يصل إلى دقيقة واحدة من الفيديو بجودة عالية، وذلك باستخدام صورة ثابتة واحدة كمدخل، وقد أبرزت الشركة قدرة النموذج على توليد حركات الشفاه المتوافقة مع الملف الصوتي، وتقديم تعبيرات وجه متناسقة معه.