به گزارش ساوت چاینا مورنینگ پست، استارتآپهای چینی هوش مصنوعی سعی میکنند با وجود دسترسی محدود به تراشههای پیشرفته و سرمایه نسبت به ایالات متحده، فعال باشند و صنایع داخلی برای همگام شدن با توسعه سریع مدل رهبران صنعت مانند OpenAI و Google رقابت میکند. BAAI یک آژانس غیرانتفاعی است که به جامعه هوش مصنوعی چین کمک می کند تا تواناییهای خود را افزایش دهند.
آخرین نسل Emu3، مدل چندوجهی BAAI، از یک طراحی معماری ساده برای آموزش مدلها برای درک تصاویر و تولید کلیپهای ویدئویی استفاده میکند. مدلهای چندوجهی برای درک انواع مختلف دادههای ورودی مانند متن، ویدئو و صدا هستند، بر خلاف مدلهای سنتی که فقط یک نوع را مدیریت میکنند.
رئیس BAAI گفت این مدل جدید بزرگترین مشارکت فناوری در سال های اخیراز سوی این سازمان ۶ ساله است.
مدل Emu3 از یک معماری هوش مصنوعی یکپارچه استفاده میکند که متن، تصاویر و کلیپهای ویدئویی را به ترکیبی از توکنها تبدیل میکند که برای پیشآموزش یک مدل استفاده میشوند. توکن کوچکترین واحد دادهای است – مانند کلمات، بخشهایی از تصاویر یا فریمهای ویدئویی – که یک مدل هوش مصنوعی میتواند پردازش کند.
آکادمی BAAI گفت که Emu3 در درک و تولید تصاویر از برخی مدلهای تثبیتشده خاص مانند مدل تولید تصویر Stable Diffusion XL و همچنین مدل چندوجهی LLaVA بهتر عمل میکند.
مدل Emu3 میتواند پایهای برای پیشرفت مدل چندوجهی آینده در چین باشد، مشابه اینکه تحقیقاتش به توسعه مدلهای زبان بزرگ محلی (LLM) کمک کرده است – فناوری که زیربنای رباتهای چت مانند ChatGPT OpenAI است. این فناوری منجر به تأسیس برخی از برترین استارتآپهای مولد هوش مصنوعی در چین، از جمله Moonshot AI و Zhipu AI شد.
این مدل ممکن است در زمینههایی از جمله رانندگی خودکار و هوش رباتیک نیز کاربرد داشته باشد.
منبع: scmp