• امروز : دوشنبه - ۱۰ اردیبهشت - ۱۴۰۳
  • برابر با : Monday - 29 April - 2024
3

باز تولید مدل تبدیل متن به وید‌ئوی هوش مصنوعی OpenAI توسط چینی‌ها

  • کد خبر : 6608
  • ۱۶ فروردین ۱۴۰۳ - ۸:۱۴
باز تولید مدل تبدیل متن به وید‌ئوی هوش مصنوعی OpenAI توسط چینی‌ها
گروهی از محققان به دنبال افزایش سطح رقابت چین با OpenAI هستند، یعنی مدل تبدیل متن به ویدئو Sora که آن را می‌توان در جدیدترین نشانه از پیشرفت‌های هوش مصنوعی مولد (AI) چین دانست.

استادان دانشگاه پکن و شرکت هوش مصنوعی Rabbitpre مستقر در شنجن به طور مشترک طرح Open-Sora را با صفحه‌ای در GitHub با ماموریت “بازتولید مدل تولید ویدئوی OpenAI” راه اندازی کردند.

هدف طرح Open-Sora بازتولید نسخه‌ای «ساده و مقیاس پذیر» از مدل تولید ویدئو OpenAI با کمک جامعه منبع باز است.OpenAI  در اواخر سال ۲۰۲۳ با راه اندازی ربات چت مولد ChatGPT خود، یک هیجان جهانی هوش مصنوعی را آغاز کرد.

با توجه به صفحه GitHub پروژه، تیم یک چارچوب سه قسمتی ایجاد کرده و چهار نسخه نمایشی از ویدئوهای بازسازی شده را در وضوح و نسبت‌های مختلف، از سه ثانیه تا ۲۴ ثانیه به نمایش گذاشته است.

وظایف بعدی این گروه شامل تنظیم دقیق فناوری برای تولید وضوح بالاتر و همچنین آموزش با داده‌ها و واحدهای پردازش گرافیکی (GPU) بیشتر است.

از زمانی که OpenAI ویدئوهای نمایشی تولید شده توسط Sora را در اوایل فوریه منتشر کرد، جوامع تجاری و فناوری چین احساسات متفاوتی را در مورد آخرین پیشرفت OpenAI تحت حمایت مایکروسافت ابراز کردند.

در حالی که برخی از شرکت‌ها علاقه شدیدی به استفاده از مدل هوش مصنوعی متن به ویدئو نشان داده‌اند، برخی دیگر درباره توانایی چین برای رقابت در این زمینه ابراز نگرانی کرده‌اند. ایالات متحده به تشدید محدودیت‌های تجاری بر صادرات تراشه‌های پیشرفته با منشاء ایالات متحده و فناوری مرتبط به چین ادامه می‌دهد.

شرکتTencent AI  در ماه ژانویه یک جعبه ابزار ویرایش و تولید ویدئو منبع باز به نام VideoCrafter2 منتشر کرد که قادر به تولید فیلم از متن است. این نسخه به روز شده VideoCrafter1 است که در اکتبر ۲۰۲۳ منتشر شد، اما محدود به ویدئوهای دو ثانیه‌ای بود.

تقریباً در همان زمان، بایت دنس مدل متن به ویدئو MagicVideo-V2 را منتشر کرد. با توجه به صفحه GitHub  پروژه، این پروژه «مدل متن به تصویر، مولد حرکت ویدئویی، ماژول جاسازی تصویر و ماژول درون یابی فریم» را در یک خط تولید ویدئویی ترکیب می‌کند.

ModelScope، از آزمایشگاه هوش دامو ویژن زیر نظر هلدینگ گروه علی بابا، مدل تولید متن به ویدئو را راه اندازی کرده است که در حال حاضر فقط از ورودی انگلیسی پشتیبانی می‌کند و خروجی ویدئو به دو ثانیه محدود شده است.

منبع: scmp

 

لینک کوتاه : https://techchina.ir/?p=6608

ثبت دیدگاه

قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.