AMD پردازنده گرافیکی Instinct MI300X MCM را خراب می کند: بسته تراشه کامل 320 واحد محاسباتی CDNA 3، 192 گیگابایت HBM3 با 288 گیگابایت ارتقاء HBM3e امسال

8 ساعت پیش

#image_title

AMD پردازنده گرافیکی Instinct MI300X MCM را خراب می کند: بسته تراشه کامل 320 واحد محاسباتی CDNA 3، 192 گیگابایت HBM3 با 288 گیگابایت ارتقاء HBM3e امسال

AMD هدف GPUهای Instinct MI300X “CDNA 3” قبل از عرضه MI325X در سه ماهه آینده، با جزئیات ساختار GPU طراحی شده برای بارهای کاری هوش مصنوعی.

پردازنده گرافیکی AMD Instinct MI300X “CDNA 3” برای بسته های هوش مصنوعی 320 واحد محاسباتی روی تراشه کامل، MI325X با HBM3e ارتقا یافته در اکتبر

MI300X AMD سومین تکرار از شتاب دهنده های Instinct است که برای بخش محاسبات هوش مصنوعی طراحی شده است. این تراشه همچنین با طعم MI300A عرضه می‌شود که بخشی بهینه‌سازی شده با APU است که ترکیبی از هسته‌های Zen 5 را در دو چیپ‌لت ارائه می‌کند و بقیه هسته‌های گرافیکی CDNA 3 را در اختیار دارند.

AMD کل Instinct MI300X را تجزیه کرده است تا تصویری دقیق از آنچه در زیر کاپوت این محصول عظیم هوش مصنوعی وجود دارد به ما ارائه دهد. برای شروع، AMD Instinct MI300X در مجموع دارای 153 میلیارد ترانزیستور است که ترکیبی از گره های پردازش 5 نانومتری TSMC و 6 نانومتری FinFET را در خود جای داده است. این هشت کلبه دارای چهار موتور مشترک هستند و هر موتور مشترک دارای 10 واحد محاسباتی است.

AMD از نسل چهارم Infinity Fabric بر روی تراشه Instinct MI300X خود استفاده می کند که تا 896 گیگابایت بر ثانیه پهنای باند ارائه می دهد. این تراشه همچنین دارای پیوند Infinity Fabric Advanced Package است که همه تراشه‌ها را با استفاده از پهنای باند 4.8 ترابایت بر ثانیه به هم متصل می‌کند در حالی که رابط XCD/IOD دارای پهنای باند 2.1 ترابایت بر ثانیه است.

در خود معماری CDNA 3، آخرین طراحی شامل موارد زیر است:

Ops/clk/cu ماتریس دو برابر شده با دقت پایین
پشتیبانی از پراکندگی ساختاری 2:4 برای INT8، FP8، FP16، BF16
عملکرد 2 برابری اضافی با پراکندگی فعال
پشتیبانی از قالب عددی TF32 و FP8
همراه FP16/FP32/INT32 با FP16/FP32/FP64 صادر کنید

نمودار بلوک کامل معماری Mi300X در زیر به اشتراک گذاشته شده است و می توانید ببینید که هر XCD دارای دو واحد محاسباتی غیرفعال است که در مجموع 304 CU از طراحی کامل 320 CU را شامل می شود. تراشه کامل با 20480 هسته پیکربندی شده است در حالی که MI300X با 19456 هسته پیکربندی شده است. همچنین 256 مگابایت حافظه پنهان Infinity Cache اختصاصی روی تراشه وجود دارد.

تجزیه کامل سلسله‌مراتب حافظه پنهان و حافظه در MI300X در زیر مشاهده می‌شود:

هر واحد محاسباتی CDNA از یک زمان‌بندی، اشتراک داده‌های محلی، ثبات‌های برداری، واحدهای برداری، هسته ماتریس و حافظه پنهان L1 تشکیل شده است. با رسیدن به ارقام عملکرد، MI300X ارائه می دهد:

افزایش 1.7 برابر در مقابل MI250X در Vector FP64
افزایش سرعت 3.4 برابری در مقابل MI250X در Vector FP32
افزایش 1.7 برابر در مقابل MI250X در Matrix FP64
افزایش 1.7 برابر در مقابل MI250X در Matrix FP32
سرعت 3.4 برابر در مقابل MI250X در Matrix FP16
سرعت 3.4 برابر در مقابل MI250X در Matrix BF16
افزایش 6.8 برابر در مقابل MI250X در Matrix INT8

AMD Instinct MI300X همچنین اولین شتاب دهنده ای است که دارای طراحی حافظه 8 پشته ای HBM3 با پیگیری NVIDIA با GPU های Blackwell اواخر امسال الف>. طراحی جدید 8 سایت به AMD اجازه می دهد تا 1.5 برابر ظرفیت بالاتری داشته باشد در حالی که استاندارد جدید HBM3 افزایش 1.6 برابری در پهنای باند در مقایسه با MI250X ارائه می دهد.

AMD همچنین بیان می‌کند که پیکربندی حافظه بزرگ‌تر و سریع‌تر آن در Instinct Mi300X به آن‌ها اجازه می‌دهد تا اندازه‌های بزرگ‌تر LLM (FP16) تا 70B در آموزش و 680B در استنتاج را مدیریت کنند، در حالی که سیستم‌های NVIDIA HGX H100 فقط می‌توانند اندازه‌های مدل را تا حداکثر حفظ کنند. 30B در آموزش و 290B در استنتاج.

یکی از ویژگی های جالب Instinct Mi300X، تقسیم بندی فضایی AMD است که به کاربران اجازه می دهد تا XCD ها را بر اساس نیازهای بار کاری خود پارتیشن بندی کنند. همه XCD ها با هم به عنوان یک پردازنده واحد عمل می کنند، اما همچنین می توان آنها را پارتیشن بندی و گروه بندی کرد تا به عنوان چندین GPU ظاهر شوند.

AMD پلتفرم Instinct خود را با MI325X در اکتبر که دارای حافظه HBM3e و افزایش ظرفیت تا 288 گیگابایت خواهد بود. برخی از ویژگی های MI325X عبارتند از::

حافظه 2 برابر
1.3 برابر پهنای باند حافظه
1.3 برابر اوج نظری FP16
1.3 برابر اوج FP8 نظری
2x اندازه مدل در هر سرور

پاسخ انویدیا سال آینده به شکل Blackwell Ultra با 288 گیگابایت HBM3e بنابراین AMD بار دیگر در این بازار حیاتی هوش مصنوعی که در آن مدل‌های هوش مصنوعی بزرگتر عرضه می‌شوند و به ظرفیت‌های حافظه بزرگ‌تری برای پشتیبانی نیاز دارند، پیشتاز خواهد ماند. میلیاردها یا تریلیون ها پارتامتر.

حتما بخوانید : Polkadot JAM به دنبال گسترش تنوع مشتریان است زیرا تیم ها برای 10 میلیون DOT Bounty رقابت می کنند.