گوگل از پردازنده‌های گرافیکی L4 NVIDIA استفاده می‌کند تا به شما امکان اجرای برنامه‌های استنتاج هوش مصنوعی را در فضای ابری بدهد.

4 ساعت پیش

#image_title

گوگل از پردازنده‌های گرافیکی L4 NVIDIA استفاده می‌کند تا به شما امکان اجرای برنامه‌های استنتاج هوش مصنوعی را در فضای ابری بدهد.

Google از پردازنده‌های گرافیکی L4 NVIDIA استفاده کرده است تا به کاربران امکان اجرای برنامه‌های استنتاج هوش مصنوعی مانند GenAI را در فضای ابری ارائه دهد.

از قدرت پردازنده‌های گرافیکی L4 NVIDIA در Google Cloud برای اجرای برنامه‌های استنتاج هوش مصنوعی خود استفاده کنید

اعلامیه مطبوعاتی: توسعه دهندگان Cloud Run را به دلیل سادگی، مقیاس‌بندی خودکار سریع، قابلیت‌های مقیاس تا صفر و قیمت پرداخت به ازای استفاده، دوست دارند. همین مزایا برای برنامه‌های استنتاج بلادرنگ که مدل‌های هوش مصنوعی نسل باز را ارائه می‌کنند، به چشم می‌خورد. به همین دلیل است که امروز، در پیش‌نمایش، پشتیبانی از پردازنده‌های گرافیکی NVIDIA L4 را به Cloud Run اضافه می‌کنیم.

این درب بسیاری از موارد استفاده جدید را برای توسعه دهندگان Cloud Run باز می کند:

انجام استنتاج بلادرنگ با مدل‌های باز سبک وزن، مانند مدل‌های باز Gemma (2B/7B) Google یا Llama 3 (8B) متا برای ساخت ربات‌های گفتگوی سفارشی یا خلاصه‌سازی اسناد در حین پرواز، در حالی که مقیاس‌پذیری برای مدیریت ترافیک پراکنده کاربر .
ارائه مدل‌های AI نسل‌های با تنظیم دقیق سفارشی، مانند تولید تصویر متناسب با برند شرکت شما، و کاهش مقیاس برای بهینه‌سازی هزینه‌ها زمانی که کسی از آنها استفاده نمی‌کند.
سرعت بخشیدن به سرویس‌های Cloud Run که محاسبات زیادی دارند، مانند تشخیص تصویر بر اساس درخواست، رمزگذاری ویدیو و پخش جریانی، و رندر سه بعدی.

به عنوان یک پلتفرم کاملاً مدیریت شده، Cloud Run به شما امکان می دهد کد خود را مستقیماً در بالای زیرساخت مقیاس پذیر Google اجرا کنید، و انعطاف پذیری کانتینرها را با سادگی بدون سرور ترکیب می کند تا به افزایش بهره وری شما کمک کند. با Cloud Run، می‌توانید سرویس‌های frontend و backend، کارهای دسته‌ای، استقرار وب‌سایت‌ها و برنامه‌ها، و مدیریت بارهای کاری پردازش صف را اجرا کنید – همه اینها بدون نیاز به مدیریت زیرساخت‌های اساسی.

در عین حال، بسیاری از بارهای کاری که استنتاج هوش مصنوعی را انجام می‌دهند، به‌ویژه برنامه‌هایی که نیاز به پردازش هم‌زمان دارند، برای ارائه تجربیات کاربر پاسخگو به شتاب GPU نیاز دارند. با پشتیبانی از پردازنده‌های گرافیکی NVIDIA، می‌توانید با استفاده از LLM‌های انتخابی خود در عرض چند ثانیه استنتاج هوش مصنوعی آنلاین بر اساس تقاضا انجام دهید. با 24 گیگابایت VRAM، می‌توانید نرخ رمز سریع را برای مدل‌هایی با حداکثر 9 میلیارد پارامتر، از جمله Llama 3.1 (8B)، Mistral (7B) و Gemma 2 (9B) انتظار داشته باشید. هنگامی که برنامه شما استفاده نمی شود، سرویس به طور خودکار به صفر کاهش می یابد تا هزینه آن از شما دریافت نشود.

امروزه، ما از پیوست کردن یک پردازنده گرافیکی NVIDIA L4 به ازای هر نمونه Cloud Run پشتیبانی می‌کنیم و نیازی نیست GPUهای خود را از قبل رزرو کنید. برای شروع، پردازنده‌های گرافیکی Cloud Run امروز در us-central1 (آیووا) در دسترس هستند و پیش‌بینی می‌شود تا قبل از پایان سال در اروپا-west4 (هلند) و آسیا-جنوب شرق1 (سنگاپور) در دسترس باشند.

<جدول> مدل اندازه مدل زمان شروع سرد gemma:2b 1.7 گیگابایت 11-17 ثانیه gemma2:9b 5.1 گیگابایت 25-30 ثانیه llama2:7b 3.8 گیگابایت 14-21 ثانیه llama2:13b 7.4 گیگابایت 23-35 ثانیه llama3.1:8b 4.7 گیگابایت 15-21 ثانیه

Cloud Run میزبانی برنامه های وب خود را بسیار آسان می کند. و اکنون با پشتیبانی GPU، ما بهترین‌ها را بدون سرور، سادگی و مقیاس‌پذیری را به برنامه‌های استنتاج هوش مصنوعی شما نیز گسترش می‌دهیم! برای شروع استفاده از Cloud Run با پردازنده‌های گرافیکی NVIDIA، در g.co/cloudrun/gpu برای پیوستن به برنامه پیش‌نمایش امروز ما و منتظر ایمیل خوش‌آمدگویی ما باشید.

حتما بخوانید : ایسوس از روترها و آداپتورهای وای‌فای ۷ با کارایی بالا شامل ROG Rapture GT-BE19000 رونمایی کرد