به گزارش ساوت چاینا مورنینگ پست، دیپسیک اوسیآر (DeepSeek-OCR) که در اواسط ماه اکتبر عرضه شد از نظر فنی یک مدل نویسهخوان نوری (OCR) است، یعنی یک سامانه هوش مصنوعی که از بینایی رایانهای برای تبدیل تصاویر به متون قابل خواندن توسط رایانه یا «ماشینخوانا» استفاده میکند و در مواردی از قبیل خودروهای هوشمند و خودران یا اسکن اسناد کاربرد دارد.
این مدل در آزمونهای ارزیابی قابلیت تجزیه و تحلیل اسناد بهترین امتیازات را به دست آورده؛ اما برخی کارشناسان کارکرد OCR آن را تقریبا فاقد اهمیت میدانند و معتقدند که هدف واقعی مدل جدید، بهبود کارایی مجموعه LLMهای دیپسیک بوده است.
LLMها که عامل اصلی رونق و محبوبیت هوش مصنوعی مولد در سالهای اخیر (از چتجیپیتی شرکت اوپنایآی گرفته تا آر۱ شرکت دیپسیک) بودهاند، ورودیها را با تبدیل متون به «توکنهایی» که نشانگر بخشها یا اجزای مختلف متن هستند، پردازش میکنند.
ولی LLMهای فعلی در مواجهه با ورودیهای طولانی یا اصطلاحا «زمینههای طولانی» (long context) دچار مشکل میشوند، چون مکانیسمی که برای «توجه» (attention) مدل به هر توکن به کار میرود، با افزایش تعداد توکنها از نظر رایانشی بسیار پرهزینه خواهد شد.
متخصصان هوش مصنوعی این مشکل را یکی از موانع کلیدی ارتقای باتهای مکالمه و تبدیل آنها به عاملها یا دستیارهای هوش مصنوعی (AI agent) قدرتمند میدانند. از سوی دیگر محدودیت دسترسی به تراشههای پیشرفته هم افزایش بهرهوری را به یکی از اولویتهای اصلی شرکتهای چینی تبدیل نموده است.
در مقالهای که درباره دیپسیک اوسیآر منتشر شده، راهحل پیشنهادی عبارتست از تبدیل توکنهای متنی به تصویر (یا مجموعهای از پیکسلها) با استفاده از یک رمزگذار بینایی (vision encoder). در این مقاله آمده که «فشردهسازی نوری زمینه» (context optical compression) منجر به فشردهسازی توکنهای متنی تا ۱۰ برابر و در عین حال حفظ دقت در سطح ۹۷ درصد شده است.
آندره کارپاتی، از بنیانگذاران اوپنایآی در شبکه اجتماعی ایکس در این باره نوشت که مقاله دیپسیک اوسیآر را بسیار پسندیده و «شاید منطقیتر این است که تمام ورودیهای LLMها فقط از نوع تصویر باشند».
ممکن است از تکنیک مذکور در نسل بعدی مدلهای دیپسیک مانند وی۴ (V4) یا آر۲ (R2) استفاده شود، چرا که سال گذشته هم این شرکت پس از انتشار چند مقاله در مجلات علمی، مدلهای وی۳ و آر۱ را بر اساس نتایج همان مقالات ارائه کرد.
مثلا در مقاله آوریل ۲۰۲۴ که چندان مورد توجه نیز قرار نگرفت، الگوریتمی به نام جیآرپیاو (GRPO یا Group Relative Policy Optimisation) معرفی شده بود که ۹ ماه بعد بر پایه آن مدل آر۱ منتشر گردید.
اکثر مقالات اخیر دیپسیک درباره حل مشکل زمینه طولانی بودهاند.
همچنین یک مدل «آزمایشی» که در اواخر سپتامبر ارائه شد، از نوآوری دیگری به نام توجه پراکنده یا محدود دیپسیک (DeepSeek Sparse Attention) استفاده کرده که هدف آن نیز بهبود عملکرد در مواجهه با زمینههای طولانی و کاهش هزینه رایانش است.
سایر شرکتهای نوپای چینی هم در حال بررسی و آزمایش تکنیکهای مشابه هستند. مثلا چندی پیش ژیپو ایآی (Z.ai) مقالهای درباره یک تکنیک جدید به نام گلیف (Glyph) منتشر نمود که میتواند توکنها را «تا چهار برابر» فشرده کند و در عین حال دقت آن قابل مقایسه با بهترین LLMهای موجود است و سرعت را هم بهبود میبخشد.
بایدو نیز در ماه اکتبر امسال کدهای مدل OCR خود موسوم به پدلاوسیآر-ویال (PaddleOCR-VL) را که در آزمونهای تجزیه و تحلیل اسناد بهترین امتیازات را به دست آورده است، به شکل متنباز ارائه کرد.
یکی از کارکنان ژیپو ایآی که بر روی گلیف کار کرده میگوید که فعلا کارایی آن در LLMهای رایج، بر حسب نوع وظیفه (task) مورد نظر متفاوت است و علت هم احتمالا این است که رمزگذار بینایی مورد استفاده، برای درک بصری عمومی طراحی شده، نه برای فشردهسازی متن.
محققان دیپسیک نیز اعلام کردهاند که تحقیقاتشان هنوز در مراحل اولیه قرار دارد و بررسیهای بیشتری لازم است. در مقاله آنها ادعای بلندپروازانهای مبنی بر این مطرح شده که شاید روش جدید بتواند مشکل زمینه طولانی را بهکلی برطرف کند، ولی برخی از متخصصان هوش مصنوعی با این ادعا موافق نیستند.
آنها میگویند تصویری که از یک متن به دست آمده را نمیتوانیم هر چقدر که میخواهیم کوچک کنیم و پس از چند بار تکرار این روش، تنها چیزی که باقی میماند پیکسلهای درهمریخته خواهد بود.
در هر صورت آخرین مقاله دیپسیک بحثهای فراوانی را در بین کارشناسان برانگیخته و باید منتظر ماند تا میزان اثرگذاری آن مشخص شود. دیپسیک به یکی از آزمایشگاههای پژوهشی پیشرو در عرصه هوش مصنوعی جهان تبدیل شده است و اولین سازمانی بود که تعداد دنبالکنندگانش در پلتفرم هاگینگ فیس از ۱۰۰ هزار نفر گذشت.
منبع: scmp


