في خطوة جديدة نحو تطوير تقنيات الذكاء الاصطناعي، كشفت شركة بايت دانس، المالكة لتطبيق تيك توك، عن نموذج مبتكر يُدعى INFP. هذا النموذج القوي يتيح تحويل الصور الشخصية الثابتة إلى مقاطع فيديو تفاعلية تظهر فيها الصور كأنها تتحدث وتتفاعل مع المدخلات الصوتية.
تحويل الصور إلى محادثات واقعية
يُعد نموذج INFP ثورة في كيفية إنشاء مقاطع فيديو تفاعلية باستخدام الذكاء الاصطناعي. يتميز هذا النموذج بقدرته على إنشاء محادثات واقعية بين شخصين دون الحاجة إلى تحديد أدوار التحدث والاستماع يدويًا. يعتمد النموذج على تحليل تدفق المحادثة لتحديد الأدوار تلقائيًا، مما يجعله أكثر دقة مقارنة بالأنظمة السابقة.
مراحل عمل نموذج INFP: كيف يتم تحويل الصور إلى فيديو؟
المرحلة الأولى: تقليد حركات الرأس والتعابير
في المرحلة الأولى من عمل النموذج، يتم تقليد حركات الرأس والتعابير من خلال تحليل مقاطع الفيديو. يقوم النظام بالتقاط التفاصيل الدقيقة مثل تعابير الوجه وحركات الرأس، ثم تحويلها إلى بيانات قابلة للاستخدام لتحريك الصور الثابتة.
المرحلة الثانية: توليد الحركات بناءً على الصوت
أما في المرحلة الثانية، يعتمد النظام على تحليل الصوت لتوليد أنماط حركة طبيعية أثناء التحدث والاستماع. يتم تعديل هذه الأنماط لتتوافق مع الصوت بشكل واقعي، مما يساعد في إنشاء مقاطع فيديو واقعية للغاية.
قاعدة بيانات DyConv: تحسين الدقة والجودة
لتحقيق دقة وجودة عالية في الفيديوهات، طوّرت بايت دانس قاعدة بيانات جديدة تُسمى DyConv. تحتوي هذه القاعدة على أكثر من 200 ساعة من المحادثات الحقيقية التي جُمعت من الإنترنت. تمتاز قاعدة بيانات DyConv بقدرتها على التقاط المشاعر الإنسانية بدقة عالية وجودة فيديو أفضل مقارنة بقواعد بيانات أخرى مثل ViCo و RealTalk.
مزايا نموذج INFP: التطور والتفوق على الأنظمة السابقة
أكدت بايت دانس أن نموذج INFP يتفوق على الأدوات الحالية في عدة جوانب، أبرزها:
- مطابقة حركة الشفاه مع الصوت بدقة أعلى.
- الحفاظ على ملامح الوجه الطبيعية.
- إنشاء حركات واقعية أثناء الاستماع.
مستقبل نموذج INFP: من الصوت إلى النص والصورة
حاليًا، يعتمد نموذج INFP على الصوت فقط، لكن بايت دانس تسعى لتطويره ليعمل مع النصوص والصور. كما تخطط الشركة لتطوير تقنيات لتحريك الجسم بالكامل وليس الرأس فقط. رغم هذه التطلعات، فإن الشركة تدرك أخطار إساءة استخدام التقنية، وتعتزم في المرحلة الحالية أن تقتصر استخدامات النموذج على الأبحاث الأكاديمية فقط.
تكامل نموذج INFP مع تطبيقات بايت دانس: تيك توك و CapCut
يُعتبر نموذج INFP جزءًا من إستراتيجية الذكاء الاصطناعي لشركة بايت دانس. يمكن أن تُسهم هذه التقنية بشكل كبير في تحسين تطبيقات شهيرة مثل تيك توك و CapCut، مما يوفر للمستخدمين أدوات جديدة لإنشاء محتوى تفاعلي وجذاب.
في الختام، يمثل نموذج INFP من بايت دانس خطوة هامة نحو تطوير تقنيات الذكاء الاصطناعي القادرة على تحويل الصور الثابتة إلى محتوى تفاعلي واقعي. من خلال دمج الصوت مع حركات الوجه والتعبيرات، يوفر النموذج إمكانيات جديدة في عالم إنتاج الفيديو. ومع التطلعات المستقبلية لتوسيع نطاقه ليشمل النصوص والصور وحركات الجسم، يعد هذا النظام بمستقبل واعد في صناعة المحتوى الرقمي.




