هزینه های پنهان آموزش مدل های هوش مصنوعی

هزینه های پنهان آموزش مدل های هوش مصنوعی

Bijie.com گزارش داد:

ساخت و پشتیبانی از مدل‌های هوش مصنوعی مدرن به سرمایه‌گذاری قابل توجهی نیاز دارد که احتمالاً بیش از صدها میلیون دلار است. تخمین زده می شود که این هزینه ها در آینده نزدیک به یک میلیارد دلار برسد.

این هزینه در درجه اول به دلیل استفاده از قدرت محاسباتی نهادهایی مانند پردازنده‌های گرافیکی انویدیا است که هر کدام حدود 30000 دلار هزینه دارند و می‌توانند هزاران هزینه بیشتر برای افزایش کارایی داشته باشند. محققان می گویند کیفیت و کمیت مجموعه داده های آموزشی مورد استفاده برای توسعه چنین مدل هایی مهم است.

رهبران صنعت هزینه های سرسام آور توسعه هوش مصنوعی را افشا می کنند

جیمز بتکر از OpenAI معتقد است که عملکرد یک مدل تابعی از داده های آموزشی است، نه طراحی یا معماری مدل. ادعای او این است که مدل های آموزش داده شده بر روی مجموعه داده های بزرگ به نتایج مشابهی دست خواهند یافت. بنابراین، داده ها کلید پیشرفت فناوری هوش مصنوعی هستند.

داریو آمودی، مدیر عامل شرکت هوش مصنوعی Anthropic AI، بینش خود را در مورد جنبه های مالی این چالش ها در پادکست Good Company به اشتراک گذاشت. وی گفت که آموزش مدل های فعلی مانند ChatGPT-4 حدود 100 میلیون دلار هزینه برآورد می شود و آموزش مدل های آینده ممکن است به 10 تا 100 میلیارد دلار در چند سال آینده نیاز داشته باشد.

در هسته آنها، مدل‌های هوش مصنوعی مولد، و همچنین مدل‌هایی که توسط شرکت‌های بزرگ ایجاد شده‌اند، مدل‌های آماری هستند. بنابراین، آنها از مثال های زیادی برای پیش بینی محتمل ترین نتایج استفاده می کنند. کایل لو از موسسه آلن برای هوش مصنوعی (AI2) گفت که بهبود عملکرد عمدتاً به دلیل داده‌ها است، به‌ویژه زمانی که محیط آموزشی سازگار باشد.

متمرکز کردن داده ها مسائل اخلاقی و دسترسی را ایجاد می کند

هزینه بالای دستیابی به داده های با کیفیت بالا، توسعه هوش مصنوعی را در اختیار چند شرکت بزرگ در کشورهای توسعه یافته قرار داده است. این تمرکز منابع همچنین نگرانی هایی را در مورد در دسترس بودن و پتانسیل سوء استفاده از فناوری هوش مصنوعی ایجاد کرده است.

OpenAI به تنهایی صدها میلیون دلار برای مجوزهای داده هزینه کرده است و متا همچنین خرید ناشران با دسترسی به داده را در نظر گرفته است. انتظار می‌رود بازار داده‌های آموزشی هوش مصنوعی گسترش یابد و کارگزاران داده احتمالاً از این موضوع سود خواهند برد.

مشکل از شیوه های جمع آوری داده های مشکوک ناشی می شود. طبق گزارش‌ها، بسیاری از شرکت‌ها حجم زیادی از محتوا را بدون مجوز صاحبان محتوا ضبط می‌کنند و برخی از شرکت‌ها از داده‌های پلتفرم‌های مختلف بدون پرداخت هزینه به کاربران سوءاستفاده می‌کنند. همانطور که قبلاً گزارش کردیم، OpenAI بیش از 1 میلیون ساعت از ویدیوهای YouTube را با استفاده از مدل رونویسی صوتی Whisper خود برای تنظیم دقیق GPT-4 رونویسی کرد.

سازمان متعهد به ایجاد مجموعه داده های آموزشی هوش مصنوعی با دسترسی آزاد

با توجه به مسائل مطرح شده در رقابت جمع آوری داده ها، برخی تلاش ها توسط احزاب مستقل لازم است تا مجموعه داده های آموزشی در دسترس عموم قرار گیرد. برخی سازمان ها مانند EleutherAI و Hugging Face در حال ایجاد مجموعه داده های بزرگی هستند که می تواند توسط عموم برای توسعه هوش مصنوعی استفاده شود.

وال استریت ژورنال اخیراً دو استراتژی بالقوه برای حل مشکل جمع آوری داده ها را برجسته کرده است: تولید داده های تولیدی و یادگیری برنامه درسی. داده‌های مصنوعی با استفاده از خود مدل‌های هوش مصنوعی ایجاد می‌شوند، در حالی که یادگیری برنامه درسی تلاش می‌کند تا داده‌های با کیفیت بالا را به روشی ساختاریافته در اختیار مدل‌ها قرار دهد تا بتوانند حتی با داده‌های کمتری ارتباط برقرار کنند. با این حال، هر دو روش هنوز در مرحله توسعه هستند و کارایی آنها هنوز آزمایش نشده است.

مطالب تحلیلی منتشرشده در مجله خالق صرفاً جنبهٔ آموزشی و ارائهٔ اطلاعات دارد و به هیچ‌ عنوان توصیه سرمایه‌گذاری و سیگنال خرید و فروش نیست. سرمایه‌گذاری در بازار ارزهای دیجیتال با ریسک بالایی همراه است و کاربر موظف است قبل از هرگونه سرمایه‌گذاری، مطالعه و تحلیل شخصی خود در رابطه با دارایی موردنظر را انجام دهد.

خروج از نسخه موبایل