اینتل بهینه‌سازی‌هایی را برای Llama 3.1 برای افزایش عملکرد در همه محصولات: Gaudi، Xeon، Core و Arc اعلام کرد.

اینتل بهینه‌سازی‌هایی را برای Llama 3.1 برای افزایش عملکرد در همه محصولات: Gaudi، Xeon، Core و Arc اعلام کرد.

Llama 3.1 متا اکنون فعال است و اینتل دارای اعلام کرد پشتیبانی کامل از مدل های هوش مصنوعی Llama 3.1 در کل مجموعه خود مانند Gaudi، Xeon، Arc و Core.

همه پردازنده‌ها و پردازنده‌های گرافیکی اینتل اکنون با مدل‌های هوش مصنوعی Llama 3.1 عملکرد بهتری دارند

متا به تازگی جدیدترین مدل زبان بزرگ Llama 3.1 امروز، که لاما نسخه 3 در آوریل منتشر شد. با آن، اینتل اعداد عملکرد Llama 3.1 را در آخرین محصولات خود، از جمله رایانه های شخصی Intel Gaudi، Xeon و AI مبتنی بر پردازنده های Core Ultra و گرافیک Arc منتشر کرد. اینتل به طور مداوم بر روی اکوسیستم نرم‌افزار هوش مصنوعی خود کار می‌کند و مدل‌های جدید Llama 3.1 بر روی محصولات هوش مصنوعی آن که با چارچوب‌های مختلفی مانند PyTorch و Intel Extension برای PyTorch، DeepSpeed، Hugging Face Optimum Libraries و vLLM در دسترس هستند، فعال می‌شوند تا اطمینان حاصل شود که کاربران عملکرد بهتری دارند. در مرکز داده، لبه و محصولات هوش مصنوعی مشتری برای جدیدترین Meta LLM.

Llama 3.1 از مجموعه LLMهای چندزبانه تشکیل شده است که مدل های تولیدی از پیش آموزش دیده و تنظیم شده با دستورالعمل را در اندازه های مختلف ارائه می دهد. بزرگترین مدل پایه معرفی شده در Llama 3.1 اندازه 405B است که قابلیت های پیشرفته ای را در دانش عمومی، هدایت پذیری، ریاضیات، استفاده از ابزار و ترجمه چند زبانه ارائه می دهد. مدل‌های کوچک‌تر شامل اندازه‌های 70B و 8B هستند که اولی یک مدل بسیار کارآمد و در عین حال مقرون‌به‌صرفه است و دومی یک مدل سبک وزن برای پاسخ‌دهی فوق‌العاده سریع است.

اینتل Llama 3.1 405B را روی شتاب‌دهنده‌های Intel Gaudi خود، که پردازنده‌های ویژه‌ای برای آموزش و استنتاج مقرون‌به‌صرفه و با کارایی بالا طراحی شده‌اند، آزمایش کرد. نتایج نشان دهنده پاسخ سریع و توان عملیاتی بالا با طول توکن های مختلف است که قابلیت های شتاب دهنده های Gaudi 2 و نرم افزار Gaudi را نشان می دهد. به طور مشابه، گائودی 2 شتاب‌دهنده‌ها عملکرد سریع‌تری را در مدل 70B با طول توکن‌های 32k و 128k نشان می‌دهند.

عملکرد برای Llama 8Bcal Process 3.

در مرحله بعد، پردازنده‌های Xeon Scalable نسل پنجم اینتل را روی میز آزمایش داریم که عملکرد را با طول‌های توکن مختلف نشان می‌دهند. با ورودی های توکن 1K، 2K و 8K، تأخیر توکن در هر دو تست BF16 و WOQ INT8 در یک محدوده نزدیک است (عمدتاً زیر 40 میلی ثانیه و 30 میلی ثانیه). این نشان دهنده واکنش سریع پردازنده های Xeon اینتل است که دارای Intel AMX (Advanced Matrix Extensions) برای عملکرد برتر هوش مصنوعی هستند. حتی با 128 هزار ورودی توکن، تأخیر در هر دو تست زیر 100 میلی‌ثانیه باقی می‌ماند.

< img srcset="https://cdn.wccftech.com/wp-content/uploads/2024/07/Llama-3.1-8B-Intel-ARC-A770-16GB-1456x775.jpg 2x، https://cdn.wccftech .com/wp-content/uploads/2024/07/Llama-3.1-8B-Intel-ARC-A770-16GB-728x388.jpg 1x" src="https://cdn.wccftech.com/wp-content/uploads /2024/07/Llama-3.1-8B-Intel-ARC-A770-16GB-564x300.jpg" alt="llama-3-1-8b-on-intel-arc-a770-16gb-limited-edition-cropped" />

استنتاج Llama 3.1 8B در پردازنده‌های Intel Core Ultra بسیار سریع است و همچنین هنگام آزمایش بر روی مدل 8B-Instruct 4-bit Weights. همانطور که در Core Ultra 7 165H با گرافیک داخلی Arc آزمایش شد، تاخیر توکن بین 50 میلی‌ثانیه تا 60 میلی‌ثانیه با ورودی‌های 32، 256، 512 و 1024 توکن باقی می‌ماند. در یک پردازنده گرافیکی Arc مجزا مانند Arc A770 16GB Limited Edition، تأخیر بسیار کم است و با هر چهار اندازه ورودی نشانه متفاوت، حدود 15 میلی‌ثانیه باقی می‌ماند.

این داستان را به اشتراک بگذارید

< استفاده از xlink:href="#icn-shareFacebook"/> فیس بوک

< استفاده از xlink:href="#icn-shareTwitter"/> توییتر

خروج از نسخه موبایل