به گزارش ساوت چاینا مورنینگ پست، با گسترش مقیاس پردازش موازی، پهنای باند بین ماشینها در معماریهای سنتی سرورها به یک گلوگاه حیاتی در آموزش مدلهای هوش مصنوعی تبدیل شده است. برآوردهکردن نیازهای آتی آموزش مدلها مستلزم معماریهای نوآورانهای مانند سوپرنود ۳۸۴ خواهد بود.
معماری سوپرنود پایه سیستم CloudMatrix 384 را تشکیل میدهد؛ سیستمی که پیشتر توسط هواوی معرفی شده بود و شامل خوشهای از ۳۸۴ پردازنده Ascend است که در ۱۲ کابینت محاسباتی و ۴ کابینت گذرگاه (bus) توزیع شدهاند. این سامانه قادر است ۳۰۰ پتافلاپس توان محاسباتی و ۴۸ ترابایت حافظه با پهنای باند بالا فراهم کند. (هر پتافلاپس برابر است با هزار تریلیون محاسبه در ثانیه.)
هواوی سیستم CloudMatrix 384 را که از آن بهعنوان بزرگترین پلتفرم آموزشی هوش مصنوعی در صنعت یاد میکند، در مراکز داده خود در استان آنخوئی (شرق چین)، مغولستان داخلی و استان گوئیژو (جنوب غرب چین) مستقر کرده است.
معماری rack-scale سوپرنود ۳۸۴ تبلور تلاشهای هواوی – که تحت تحریمهای فناوری آمریکا قرار دارد – برای غلبه بر محدودیتهای واشنگتن و آزمودن مرزهای عملکرد سیستمهای هوش مصنوعی است.
به گفته هواوی، معماری سوپرنود ۳۸۴ قابلیت مقیاسپذیری بسیار گستردهای دارد و میتواند دهها هزار پردازنده را به یکدیگر متصل کند تا از مدلهای نسل بعدی هوش مصنوعی پشتیبانی و به صنایع مختلف کمک کند با سرعت بیشتری هوشمندتر و کارآمدتر شوند.
هواوی همچنین اعلام کرد این معماری جدید مبتنی بر محاسبات همتا-به-همتا (peer-to-peer) است و ساختار سنتی فوننیومن (Von Neumann) که اساس رایانههای مدرن امروزی است را کنار گذاشته است. معماری فوننیومن شامل پردازنده مرکزی، حافظه، ورودیها، خروجیها و گذرگاهی برای اتصال این اجزاست.
معماری سوپرنود ۳۸۴ بهویژه برای مدلهای موسوم به Mixture-of-Experts (MoE) – روشی در یادگیری ماشین که از چندین زیرشبکه تخصصی برای حل مسائل پیچیده استفاده میکند – مناسب توصیف شده است.
در نتایج بنچمارکهایی که در کنفرانس توسعهدهندگان هواوی ارائه شد، این معماری توانست در مدلهای متراکم هوش مصنوعی مانند LLaMA 3 متعلق به شرکت متا، ۱۳۲ توکن در ثانیه (TPS) در هر کارت پردازنده تولید کند که ۲.۵ برابر سریعتر از خوشههای سنتی بود. در مدلهای چندوجهی و MoE که نیاز به ارتباطات پرحجم دارند – نظیر مدلهای شرکتهایQwen و دیپسیک عملکرد بین ۶۰۰ تا ۷۵۰ توکن در ثانیه به ازای هر کارت گزارش شده است.
هواوی همچنین اعلام کرد که در این معماری بهجای استفاده از اتصالهای سنتی اترنت (Ethernet) از گذرگاههای پرسرعت استفاده کرده است که پهنای باند ارتباطات را ۱۵ برابر افزایش دادهاند. همچنین تاخیر در ارتباطات تک-گام از ۲ میکروثانیه به ۲۰۰ نانوثانیه کاهش یافته – که بهبودی ۱۰ برابری است – و این امکان را فراهم کرده که خوشه CloudMatrix 384 همانند یک رایانه یکپارچه عمل کند.
سیستم CloudMatrix 384 از پردازنده جدید Ascend 910C بهره میبرد؛ پردازندهای که با افزایش مقیاس خوشهای، ضعف عملکرد تکی هر تراشه را جبران میکند.
اگرچه هواوی یک نسل در تولید تراشه عقبتر است، اما راهکار مقیاسپذیر آن، از لحاظ معماری، یک نسل جلوتر از محصولات فعلی انویدیا و AMD محسوب میشود.
منبع: scmp