• امروز : یکشنبه - ۲۳ آذر - ۱۴۰۴
  • برابر با : Sunday - 14 December - 2025
0

آیا راهکار جدید دیپ‌سیک مشکل «زمینه طولانی» مدل‌های زبانی بزرگ را حل می‌کند؟

  • کد خبر : 12002
  • ۲۳ آذر ۱۴۰۴ - ۸:۰۰
آیا راهکار جدید دیپ‌سیک مشکل «زمینه طولانی» مدل‌های زبانی بزرگ را حل می‌کند؟
کارشناسان می‌گویند مدل هوش مصنوعی جدید دیپ‌سیک که تصاویر را به متن تبدیل می‌کند فقط یک ابزار تجزیه و تحلیل اسناد نیست، بلکه می‌تواند پیش‌درآمدی بر نسل بعدی مدل‌های زبانی بزرگ (LLM) این شرکت باشد.

به گزارش ساوت چاینا مورنینگ پست، دیپ‌سیک اوسی‌آر (DeepSeek-OCR) که در اواسط ماه اکتبر عرضه شد از نظر فنی یک مدل نویسه‌خوان نوری (OCR) است، یعنی یک سامانه هوش مصنوعی که از بینایی رایانه‌ای برای تبدیل تصاویر به متون قابل خواندن توسط رایانه یا «ماشین‌خوانا» استفاده می‌کند و در مواردی از قبیل خودروهای هوشمند و خودران یا اسکن اسناد کاربرد دارد.

این مدل در آزمون‌های ارزیابی قابلیت تجزیه و تحلیل اسناد بهترین امتیازات را به دست آورده؛ اما برخی کارشناسان کارکرد OCR آن را تقریبا فاقد اهمیت می‌دانند و معتقدند که هدف واقعی مدل جدید، بهبود کارایی مجموعه LLMهای دیپ‌سیک بوده است.

LLMها که عامل اصلی رونق و محبوبیت هوش مصنوعی مولد در سال‌های اخیر (از چت‌جی‌پی‌تی شرکت اوپن‌ای‌آی گرفته تا آر۱ شرکت دیپ‌سیک) بوده‌اند، ورودی‌ها را با تبدیل متون به «توکن‌هایی» که نشانگر بخش‌ها یا اجزای مختلف متن هستند، پردازش می‌کنند.

ولی LLMهای فعلی در مواجهه با ورودی‌های طولانی یا اصطلاحا «زمینه‌های طولانی» (long context) دچار مشکل می‌شوند، چون مکانیسمی که برای «توجه» (attention) مدل به هر توکن به کار می‌رود، با افزایش تعداد توکن‌ها از نظر رایانشی بسیار پرهزینه خواهد شد.

متخصصان هوش مصنوعی این مشکل را یکی از موانع کلیدی ارتقای بات‌های مکالمه و تبدیل آنها به عامل‌ها یا دستیارهای هوش مصنوعی (AI agent) قدرتمند می‌دانند. از سوی دیگر محدودیت دسترسی به تراشه‌های پیشرفته هم افزایش بهره‌وری را به یکی از اولویت‌های اصلی شرکت‌های چینی تبدیل نموده است.

در مقاله‌ای که درباره دیپ‌سیک اوسی‌آر منتشر شده، راه‌حل پیشنهادی عبارتست از تبدیل توکن‌های متنی به تصویر (یا مجموعه‌ای از پیکسل‌ها) با استفاده از یک رمزگذار بینایی (vision encoder). در این مقاله آمده که «فشرده‌سازی نوری زمینه» (context optical compression) منجر به فشرده‌سازی توکن‌های متنی تا ۱۰ برابر و در عین حال حفظ دقت در سطح ۹۷ درصد شده است.

آندره کارپاتی، از بنیانگذاران اوپن‌ای‌آی در شبکه اجتماعی ایکس در این باره نوشت که مقاله دیپ‌سیک اوسی‌آر را بسیار پسندیده و «شاید منطقی‌تر این است که تمام ورودی‌های LLMها فقط از نوع تصویر باشند».

ممکن است از تکنیک مذکور در نسل بعدی مدل‌های دیپ‌سیک مانند وی۴ (V4) یا آر۲ (R2) استفاده شود، چرا که سال گذشته هم این شرکت پس از انتشار چند مقاله در مجلات علمی، مدل‌های وی۳ و آر۱ را بر اساس نتایج همان مقالات ارائه کرد.

مثلا در مقاله آوریل ۲۰۲۴ که چندان مورد توجه نیز قرار نگرفت، الگوریتمی به نام جی‌آرپی‌او (GRPO یا Group Relative Policy Optimisation) معرفی شده بود که ۹ ماه بعد بر پایه آن مدل آر۱ منتشر گردید.

اکثر مقالات اخیر دیپ‌سیک درباره حل مشکل زمینه طولانی بوده‌اند.

همچنین یک مدل «آزمایشی» که در اواخر سپتامبر ارائه شد، از نوآوری دیگری به نام توجه پراکنده یا محدود دیپ‌سیک (DeepSeek Sparse Attention) استفاده کرده که هدف آن نیز بهبود عملکرد در مواجهه با زمینه‌های طولانی و کاهش هزینه رایانش است.

سایر شرکت‌های نوپای چینی هم در حال بررسی و آزمایش تکنیک‌های مشابه هستند. مثلا چندی پیش ژیپو ای‌آی (Z.ai) مقاله‌ای درباره یک تکنیک جدید به نام گلیف (Glyph) منتشر نمود که می‌تواند توکن‌ها را «تا چهار برابر» فشرده کند و در عین حال دقت آن قابل مقایسه با بهترین LLMهای موجود است و سرعت را هم بهبود می‌بخشد.

بایدو نیز در ماه اکتبر امسال کدهای مدل OCR خود موسوم به پدل‌اوسی‌آر-وی‌ال (PaddleOCR-VL) را که در آزمون‌های تجزیه و تحلیل اسناد بهترین امتیازات را به دست آورده است، به شکل متن‌باز ارائه کرد.

یکی از کارکنان ژیپو ای‌آی که بر روی گلیف کار کرده می‌گوید که فعلا کارایی آن در LLMهای رایج، بر حسب نوع وظیفه (task) مورد نظر متفاوت است و علت هم احتمالا این است که رمزگذار بینایی مورد استفاده، برای درک بصری عمومی طراحی شده، نه برای فشرده‌سازی متن.

محققان دیپ‌سیک نیز اعلام کرده‌اند که تحقیقات‌شان هنوز در مراحل اولیه قرار دارد و بررسی‌های بیشتری لازم است. در مقاله آنها ادعای بلندپروازانه‌ای مبنی بر این مطرح شده که شاید روش جدید بتواند مشکل زمینه طولانی را به‌کلی برطرف کند، ولی برخی از متخصصان هوش مصنوعی با این ادعا موافق نیستند.

آنها می‌گویند تصویری که از یک متن به دست آمده را نمی‌توانیم هر چقدر که می‌خواهیم کوچک کنیم و پس از چند بار تکرار این روش، تنها چیزی که باقی می‌ماند پیکسل‌های درهم‌ریخته خواهد بود.

در هر صورت آخرین مقاله دیپ‌سیک بحث‌های فراوانی را در بین کارشناسان برانگیخته و باید منتظر ماند تا میزان اثرگذاری آن مشخص شود. دیپ‌سیک به یکی از آزمایشگاه‌های پژوهشی پیشرو در عرصه هوش مصنوعی جهان تبدیل شده است و اولین سازمانی بود که تعداد دنبال‌کنندگانش در پلت‌فرم هاگینگ فیس از ۱۰۰ هزار نفر گذشت.

منبع: scmp

لینک کوتاه : https://techchina.ir/?p=12002

ثبت دیدگاه

قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.