استادان دانشگاه پکن و شرکت هوش مصنوعی Rabbitpre مستقر در شنجن به طور مشترک طرح Open-Sora را با صفحهای در GitHub با ماموریت “بازتولید مدل تولید ویدئوی OpenAI” راه اندازی کردند.
هدف طرح Open-Sora بازتولید نسخهای «ساده و مقیاس پذیر» از مدل تولید ویدئو OpenAI با کمک جامعه منبع باز است.OpenAI در اواخر سال ۲۰۲۳ با راه اندازی ربات چت مولد ChatGPT خود، یک هیجان جهانی هوش مصنوعی را آغاز کرد.
با توجه به صفحه GitHub پروژه، تیم یک چارچوب سه قسمتی ایجاد کرده و چهار نسخه نمایشی از ویدئوهای بازسازی شده را در وضوح و نسبتهای مختلف، از سه ثانیه تا ۲۴ ثانیه به نمایش گذاشته است.
وظایف بعدی این گروه شامل تنظیم دقیق فناوری برای تولید وضوح بالاتر و همچنین آموزش با دادهها و واحدهای پردازش گرافیکی (GPU) بیشتر است.
از زمانی که OpenAI ویدئوهای نمایشی تولید شده توسط Sora را در اوایل فوریه منتشر کرد، جوامع تجاری و فناوری چین احساسات متفاوتی را در مورد آخرین پیشرفت OpenAI تحت حمایت مایکروسافت ابراز کردند.
در حالی که برخی از شرکتها علاقه شدیدی به استفاده از مدل هوش مصنوعی متن به ویدئو نشان دادهاند، برخی دیگر درباره توانایی چین برای رقابت در این زمینه ابراز نگرانی کردهاند. ایالات متحده به تشدید محدودیتهای تجاری بر صادرات تراشههای پیشرفته با منشاء ایالات متحده و فناوری مرتبط به چین ادامه میدهد.
شرکتTencent AI در ماه ژانویه یک جعبه ابزار ویرایش و تولید ویدئو منبع باز به نام VideoCrafter2 منتشر کرد که قادر به تولید فیلم از متن است. این نسخه به روز شده VideoCrafter1 است که در اکتبر ۲۰۲۳ منتشر شد، اما محدود به ویدئوهای دو ثانیهای بود.
تقریباً در همان زمان، بایت دنس مدل متن به ویدئو MagicVideo-V2 را منتشر کرد. با توجه به صفحه GitHub پروژه، این پروژه «مدل متن به تصویر، مولد حرکت ویدئویی، ماژول جاسازی تصویر و ماژول درون یابی فریم» را در یک خط تولید ویدئویی ترکیب میکند.
ModelScope، از آزمایشگاه هوش دامو ویژن زیر نظر هلدینگ گروه علی بابا، مدل تولید متن به ویدئو را راه اندازی کرده است که در حال حاضر فقط از ورودی انگلیسی پشتیبانی میکند و خروجی ویدئو به دو ثانیه محدود شده است.
منبع: scmp