به گزارش ساوت چاینا مورنینگ پست، استارتآپهایی مانند Moonshot AI و دیپسیک با آزمایش شکلهای ترکیبی از «توجه»، مکانیسمی که به LLMها امکان پردازش و یادآوری اطلاعات را میدهد دنبال آن هستند که از منابع محاسباتی محدود بیشترین استفاده را ببرند، در حالی که با رهبران جهانی رقابت میکنند.
محور کار آنها بازطراحی فرآیند پرهزینه «توجه کامل» است که در اکثر LLMها استفاده میشود، فرآیندی که طی آن هر توکن جدید با تمام توکنهای قبلی مقایسه میشود. با افزایش تعداد توکنها، این فرآیند از نظر محاسباتی بهشدت سنگینتر میشود.
کارشناسان هوش مصنوعی از این بودجه توجهیِ محدود LLMها بهعنوان یکی از گلوگاههای اصلی در توسعه عاملهای هوش مصنوعی قدرتمند یاد میکنند.
اکنون توسعهدهندگان چینی در حال بررسی سیستمهای ترکیبیِ «توجه خطی» هستند که مقایسهها را فقط با بخشی از توکنها انجام میدهد و بهطور چشمگیری هزینههای محاسباتی را کاهش میدهد.
یکی از تازهترین نمونهها Kimi Linear است که توسط Moonshot AI در اواخر اکتبر منتشر شد و تکنیک ترکیبیِ «Kimi Delta Attention» (KDA) را معرفی کرد که لایههای توجه کامل و خطی را با هم ترکیب میکند.
این استارتآپ که توسط گروه علیبابا پشتیبانی میشود، اعلام کرد این روش به کارایی برابر با مدلهای سنتیِ توجه کامل دست یافته، در حالی که ارزانتر و سریعتر است.
Qwen3-Next متعلق به علیبابا کلاود که هنگام معرفی در ماه اوت، آن را «آینده LLMهای کارآمد» نامید، رویکرد مشابهی اتخاذ کرده است. علیبابا کلاد واحد هوش مصنوعی و خدمات ابری گروه علیبابا در هانگژو است.
این مدل نیز از توجه ترکیبی برای بهبود بهرهوری بدون کاهش دقت استفاده میکند. توسعهدهندگان Moonshot AI و Qwen پیشتر اشاره کرده بودند که نسخههای آینده مدلهایشان دارای شکلهایی از توجه ترکیبی خواهند بود.
در همین حال، شرکت دیپسیک در حال آزمایش رویکرد متفاوتی به نام «توجه پراکنده» (Sparse Attention) است که در مدل تجربی V3.2 این شرکت در سپتامبر معرفی شد. این روش تلاش میکند با حذف توکنهای غیرضروری، هزینه محاسبات را کاهش دهد.
این آزمایشها نشان میدهد چگونه شرکتهای هوش مصنوعی چین بهدنبال دستاوردهای الگوریتمی برای جبران محدودیتهای سختافزاری هستند.
در حالی که شرکتهای چینی انگیزه بیشتری برای آزمودن گونههای کارآمدِ مکانیزم توجه دارند، برخی شرکتهای سیلیکونولی اساساً چیپهای زیادی دارند و به همین دلیل آنقدر تنبلاند که سراغ این موارد نمیروند.
با این حال تردیدهایی درباره توانایی این روشها در مقیاسدهی به بزرگترین و قدرتمندترین مدلها باقی است.
بهعنوان نمونه، Moonshot AI در مدل پرچمدار تریلیون-پارامتری خود یعنی Kimi K2 Thinking از KDA استفاده نکرد، و شرکت MiniMax که از حامیان اولیه توجه خطی بود در مدل جدید M2 خود بار دیگر به توجه کامل بازگشته است.
منبع: scmp


