• امروز : چهارشنبه - ۳ دی - ۱۴۰۴
  • برابر با : Wednesday - 24 December - 2025
0

استارت‌آپ‌های هوش مصنوعی چین و بازطراحی شیوه یادآوری مدل‌ها

  • کد خبر : 12082
  • ۰۳ دی ۱۴۰۴ - ۹:۰۰
استارت‌آپ‌های هوش مصنوعی چین و بازطراحی شیوه یادآوری مدل‌ها
با محدودتر شدن دسترسی به چیپ‌های پیشرفته، توسعه‌دهندگان چینی هوش مصنوعی تمرکز خود را بر حل یک تنگنای الگوریتمی در قلب مدل‌های زبانی بزرگ (LLMها) گذاشته‌اند، به این امید که معماری کارآمدتر، نه سخت‌افزار قدرتمندتر، بتواند به آن‌ها کمک کند از رقبای غربی پیشی بگیرند.

به گزارش ساوت چاینا مورنینگ پست، استارت‌آپ‌هایی مانند Moonshot AI و دیپ‌سیک با آزمایش شکل‌های ترکیبی از «توجه»، مکانیسمی که به LLMها امکان پردازش و یادآوری اطلاعات را می‌دهد دنبال آن هستند که از منابع محاسباتی محدود بیشترین استفاده را ببرند، در حالی که با رهبران جهانی رقابت می‌کنند.

محور کار آن‌ها بازطراحی فرآیند پرهزینه «توجه کامل» است که در اکثر LLMها استفاده می‌شود، فرآیندی که طی آن هر توکن جدید با تمام توکن‌های قبلی مقایسه می‌شود. با افزایش تعداد توکن‌ها، این فرآیند از نظر محاسباتی به‌شدت سنگین‌تر می‌شود.

کارشناسان هوش مصنوعی از این بودجه توجهیِ محدود LLMها به‌عنوان یکی از گلوگاه‌های اصلی در توسعه عامل‌های هوش مصنوعی قدرتمند یاد می‌کنند.

اکنون توسعه‌دهندگان چینی در حال بررسی سیستم‌های ترکیبیِ «توجه خطی» هستند که مقایسه‌ها را فقط با بخشی از توکن‌ها انجام می‌دهد و به‌طور چشمگیری هزینه‌های محاسباتی را کاهش می‌دهد.

یکی از تازه‌ترین نمونه‌ها Kimi Linear است که توسط Moonshot AI در اواخر اکتبر منتشر شد و تکنیک ترکیبیِ «Kimi Delta Attention» (KDA) را معرفی کرد که لایه‌های توجه کامل و خطی را با هم ترکیب می‌کند.

این استارت‌آپ که توسط گروه علی‌بابا پشتیبانی می‌شود، اعلام کرد این روش به کارایی برابر با مدل‌های سنتیِ توجه کامل دست یافته، در حالی که ارزان‌تر و سریع‌تر است.

Qwen3-Next متعلق به علی‌بابا کلاود که هنگام معرفی در ماه اوت، آن را «آینده LLMهای کارآمد» نامید، رویکرد مشابهی اتخاذ کرده است. علی‌بابا کلاد واحد هوش مصنوعی و خدمات ابری گروه علی‌بابا در هانگژو است.

این مدل نیز از توجه ترکیبی برای بهبود بهره‌وری بدون کاهش دقت استفاده می‌کند. توسعه‌دهندگان Moonshot AI و Qwen پیش‌تر اشاره کرده بودند که نسخه‌های آینده مدل‌هایشان دارای شکل‌هایی از توجه ترکیبی خواهند بود.

در همین حال، شرکت دیپ‌سیک در حال آزمایش رویکرد متفاوتی به نام «توجه پراکنده» (Sparse Attention) است که در مدل تجربی V3.2 این شرکت در سپتامبر معرفی شد. این روش تلاش می‌کند با حذف توکن‌های غیرضروری، هزینه محاسبات را کاهش دهد.

این آزمایش‌ها نشان می‌دهد چگونه شرکت‌های هوش مصنوعی چین به‌دنبال دستاوردهای الگوریتمی برای جبران محدودیت‌های سخت‌افزاری هستند.

در حالی که شرکت‌های چینی انگیزه بیشتری برای آزمودن گونه‌های کارآمدِ مکانیزم توجه دارند، برخی شرکت‌های سیلیکون‌ولی اساساً چیپ‌های زیادی دارند و به همین دلیل آن‌قدر تنبل‌اند که سراغ این موارد نمی‌روند.

با این حال تردیدهایی درباره توانایی این روش‌ها در مقیاس‌دهی به بزرگ‌ترین و قدرتمندترین مدل‌ها باقی است.

به‌عنوان نمونه، Moonshot AI در مدل پرچم‌دار تریلیون-پارامتری خود یعنی Kimi K2 Thinking از KDA استفاده نکرد، و شرکت  MiniMax که از حامیان اولیه توجه خطی بود در مدل جدید M2 خود بار دیگر به توجه کامل بازگشته است.

منبع: scmp

لینک کوتاه : https://techchina.ir/?p=12082

ثبت دیدگاه

قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.