به گزارش چاینادیلی، این مدل ثابت میکند که پیشبینی توکن بعدی (پیشبینی کلمه یا عنصر بعدی در یک دنباله) میتواند علاوه بر متنها و مدلهای زبانی، برای مدلهای چندوجهی (که هم با متن و هم تصاویر سر و کار دارند) نیز مفید باشد.
مدل Emu3 بر پیشبینی قسمت بعدی یک دنباله تمرکز میکند و در نتیجه نیازی به روشهای پیچیده مانند انتشار (diffusion) یا ترکیب (composition) ندارد.
بهعلاوه این مدل تصاویر، متون و ویدیوها را به یک فرمت واحد تبدیل نموده و مدل ترنسفورمر واحدی را از ابتدا بر روی ترکیبی از انواع مختلف دنبالهها (شامل متن و تصویر) آموزش میدهد؛ و به این ترتیب نیازی به ترکیب مدلهای انتشاری پیچیده با مدلهای زبانی بزرگ نخواهد بود.
فناوریها و مدلهای کلیدی Emu3 بهصورت متنباز در اختیار عموم قرار گرفتهاند.
مدلهای جهانی چندوجهی در آینده کاربردهای فراوانی در حوزههای مختلف از قبیل رباتیک شناختی، سامانههای رانندگی خودکار و استدلال و مکالمه چندوجهی خواهند داشت.
منبع: chinadaily