NVIDIA Blackwell در MLPerf & Shatters AI Performance Records شروع به کار کرد، رهبری هاپر با عملکرد بهتر H100 و H200 AMD MI300X ادامه می‌یابد.

6 ساعت پیش

#image_title

NVIDIA Blackwell در MLPerf & Shatters AI Performance Records شروع به کار کرد، رهبری هاپر با عملکرد بهتر H100 و H200 AMD MI300X ادامه می‌یابد.

انویدیا تراشه‌های Blackwell AI عملکرد رکورد را در MLPerf تضمین می‌کنند در حالی که تراشه‌های Hopper H100 و H200 همچنان قوی‌تر می‌شوند و از MI300X فراتر می‌روند.

تسلط انویدیا در استنباط MLPerf و معیارهای هوش مصنوعی با تراشه‌های هوش مصنوعی بلک‌ول تثبیت شد، هاپر به لطف بهینه‌سازی‌های مستمر در پشته CUDA، عملکرد حتی قوی‌تری را افزایش داد

تراشه‌های بلک‌ول AI انویدیا بالاخره رکورد خود را در MLPerf نسخه 4.1 به ثبت رساندند و اعداد عملکردی رکورد در همه معیارها را تضمین کردند. تراشه‌های NVIDIA Blackwell AI که در اواخر امسال به مراکز داده می‌آیند، به‌عنوان قوی‌ترین راه‌حل هوش مصنوعی در بازار با تا 4 برابر افزایش عملکرد نسلی آماده هستند.

امروز، NVIDIA اعلام کرد که بالاترین عملکرد را در MLPerf Inference نسخه 4.1 در بین تمام معیارهای هوش مصنوعی به دست آورده است که عبارتند از:

Llama 2 70B (Dense LLM)
Mixtral 8x7B MoE (Sparse Mixture of Experts LLM)
انتشار پایدار (متن به تصویر)
DLRMv2 (توصیه)
BERT (NLP)
RetinaNet (تشخیص اشیا)
GPT-J 6B (LLM متراکم)
سه بعدی U-Net (تقسیم بندی تصویر پزشکی)
ResNet-50 v1.5 (طبقه بندی تصویر)

در Llama 2 70B، راه‌حل‌های Blackwell AI NVIDIA نسبت به تراشه‌های Hopper H100 افزایش چشمگیری ارائه می‌کنند. در بارهای کاری سرور، یک واحد پردازش گرافیکی بلک ول افزایش 4 برابری (10756 توکن در ثانیه) را ارائه می دهد، در حالی که در سناریوهای آفلاین، واحد گرافیکی بلک ول 3.7 برابر افزایش عملکرد را با 11264 توکن در ثانیه ارائه می دهد. NVIDIA همچنین اولین عملکرد اندازه‌گیری شده عمومی را با استفاده از FP4 در حال اجرا بر روی پردازنده‌های گرافیکی Blackwell ارائه کرد.

در حالی که بلک‌ول همان جانوری است که وعده داده شده بود، هاپر انویدیا همچنان با بهینه‌سازی‌های بیشتر در پشته CUDA قوی‌تر می‌شود. تراشه‌های H200 و H100 عملکرد برتر را در هر آزمایش در مقایسه با رقبا و همچنین در آخرین معیارها مانند پارامتر 56 میلیاردی “Mixtral 8x7B” LLM ارائه می‌کنند.

NVIDIA HGX H200 با 8 پردازنده گرافیکی Hopper H200 و NVSwitch با سرعت تولید توکن 34,864 (آفلاین) و 32,790 (سرور) با 1000 وات و (301,30 و 31,30) و 1000W و 31,30 (Offline) در Llama 2 70B دستاوردهای عملکردی قوی را در Llama 2 70B ارائه می‌کند. ) نشانه‌ها/ثانیه با پیکربندی 700 وات.

این افزایش 50 درصدی نسبت به محلول Hopper H100 است. H100 همچنان عملکرد بهتری از هوش مصنوعی در Llama 2 در مقابل راه حل AMD Instinct MI300X. عملکرد اضافه شده به لطف بهینه‌سازی‌های نرم‌افزاری که هم برای تراشه‌های Hopper و هم 80 درصد ظرفیت حافظه بالاتر و 40 درصد پهنای باند بیشتر مرتبط با تراشه‌های H200 اعمال می‌شود.

در Mixtral 8x7B با استفاده از سرور تست چند GPU، NVIDIA H100 و H200 به ترتیب تا 59022 و 52416 توکن در ثانیه خروجی ارائه می‌دهند. به نظر می‌رسد که AMD Instinct MI300X در این حجم کاری خاص غایب است زیرا هیچ ارسالی توسط تیم قرمز ارائه نشده است. در Stable Diffusion XL نیز همینطور است، جایی که بهبودهای فول استک جدید عملکرد تراشه‌های هوش مصنوعی Hopper را تا 27 درصد افزایش می‌دهند در حالی که AMD هنوز MLPerf را تحت این حجم کاری خاص ارسال نکرده است.

تلاش‌های انویدیا برای تنظیم دقیق نرم‌افزارش به‌شدت نتیجه داده است. این شرکت در هر نسخه MLPerf شاهد پیشرفت‌های عمده‌ای بوده است و این مزیت مستقیماً برای مشتریانش که از پردازنده‌های گرافیکی Hopper در سرورهای خود استفاده می‌کنند، ارائه می‌شود.

این را قبلاً بیان کرده‌ایم و باز هم خواهیم گفت، هوش مصنوعی و مراکز داده همه چیز سخت‌افزاری نیست، این یک جزء است اما جزء دیگر که به همان اندازه مهم است (اگر نه بیشتر) نرم‌افزار است. اگر نرم افزار مناسبی برای پشتیبان گیری از آن ندارید و شرکت هایی که میلیون ها دلار در زیرساخت های هوش مصنوعی سرمایه گذاری می کنند، داشتن قوی ترین سخت افزار فایده ای ندارد.

NVIDIA این اکوسیستم را به خوبی دارد و آماده عرضه به شرکت‌ها و نیروگاه‌های هوش مصنوعی در سراسر جهان است، به همین دلیل است که این شرکت اکنون در دسترس بودن HGX H200 را از طریق شرکای مختلف اعلام می‌کند.

و این فقط بلک ول یا هاپر سنگین وزن نیستند که به بهینه سازی ادامه می دهند. حتی راه‌حل‌های Edge مانند Jetson AG Orin از زمان ارسال نسخه MLPerf نسخه 4.0 افزایش 6 برابری داشته‌اند که منجر به تأثیر بسیار زیادی بر بار کاری GenAI در Edge شده است.

با نمایش عملکرد قوی بلک‌ول قبل از راه‌اندازی، می‌توان انتظار داشت که معماری جدید، که برای هوش مصنوعی ساخته شده است، قوی‌تر شود، درست مانند هاپر، و مزایای بهینه‌سازی را در اواخر سال آینده به Blackwell Ultra منتقل کند.< /p>

حتما بخوانید : پیش فروش Bitnance (BTN) آتش گرفت، 73000 توکن فروخته شد به علاوه ATH جدید