ماراتن، نه دوی سرعت: توسعه ChatGPT های معتبر برای زبان های هندی حق بیمه
ماراتن، نه دوی سرعت: توسعه ChatGPT های معتبر برای زبان های هندی
حق بیمه
در گامی مهم به سوی هندی شدن هوش مصنوعی (AI)، اوایل این ماه، هوش مصنوعی Sarvam مستقر در بنگلور مجموعه ای از محصولات را برای تغییر چشم انداز هوش مصنوعی در این کشور ارائه کرد. یکی از آنها Sarvam 2B بود — یک مدل زبان بزرگ منبع باز (LLM) که به 10 زبان هندی مسلط است.
دموکراتیک کردن هوش مصنوعی، در دسترس قرار دادن آن برای هر هندی صرف نظر از پیشینه زبانی و اجتماعی-اقتصادی آنها، و پر کردن شکاف دیجیتالی، هدف مورد نظر است، یکی از بنیانگذاران شرکت پس از راه اندازی پست کرد.
LLMها در سال گذشته با راه اندازی GPT4 شرکت آمریکایی OpenAI – نسخه پیشرفته ChatGPT این شرکت که گفته می شد قادر به درک احساسات انسانی و پاسخگویی به آن است، در اخبار منتشر شد. در حالی که ChatGPT، در حال حاضر، امکان تعامل در زبانهای هندی، از جمله تامیل، مالایالام، و هندی را فراهم میکند، اما چیزهای زیادی را به خود میدهد – به ویژه در زمینههای درک تفاوتهای ظریف زبان، لهجهها، اصطلاحات و ارجاعات فرهنگی زبانهای هندی. در میان دیگران
در پاسخ به پرسشی در این زمینه، ربات چت از سوی خود میگوید که این رباتها در یک LLM که از ابتدا طراحی شده است، بهتر نشان داده میشوند، برخلاف مدل هوش مصنوعی که از دادههای در دسترس عموم ساخته شده است.
نها*، که بیش از چهار سال در LLM کار کرده است، میگوید: هیچ ابتکاری وجود ندارد
توسعه LLM در زبانهایی به جز انگلیسی دشوار است. «دادهها و محتوای دیجیتالی موجود به زبان انگلیسی فراوان است و به عنوان پایهای برای آموزش دستگاه عمل میکند. در مورد زبان های هندی، داده ها بسیار محدود هستند. او اضافه میکند که زمان زیادی طول میکشد و آموزشهای زیادی برای رسیدن به جایی که انگلیسی در حال حاضر [در رابطه با LLMs] در آن قرار دارد، طول میکشد.
با این حال، مدتی است که تلاشها در حال انجام است. در این زمینه توسط شرکت هایی مانند سروام که سال گذشته مدل هندی زبان “OpenHathi” را منتشر کرد. ابتکارات دولت مرکزی مانند باشینی که طیف وسیعی از ابزارهای هوش مصنوعی را فراهم میکند که امکان دسترسی به زبانهای ترجیحی هندی را فراهم میکند. AI4Bharat، سرمایهگذاری مؤسسه فناوری هند-مدرس، در میان دیگران.
اخیراً، کالج مهندسی تیاگاراجار (TCE) در مادورای یک مرکز تحقیقاتی به نام تامارای را برای هوش مصنوعی در تامیل راهاندازی کرد.
>
این فرآیند دشوار است زیرا طراحی یک زبان هندی کارآمد LLM به مقادیر گسترده ای از داده های دقیق و معتبر نیاز دارد. «[در بیشتر موارد]، شرکتها یا دانشگاههایی که در این زمینه کار میکنند، به بهترین دانشگاههایی که زبان مورد نظر در آنها تدریس میشود، دسترسی پیدا میکنند، با دانشکده در تماس هستند و کمی ادبیات در مورد این زبان تهیه میکنند. کمک سازمان های غیر دولتی (NGO) در جمع آوری داده ها [در زبان] در میدان مورد نظر است. عوامل در مناطق دورافتاده ای مستقر می شوند که در آن زبان هنوز بدون تأثیرپذیری از زبان های دیگر [مانند انگلیسی] صحبت می شود. سازمانهای غیردولتی جلساتی را با ساکنان ترتیب میدهند، از آنها میخواهند در مورد چندین موضوع یا حوزه صحبت کنند، و مکالمات را ضبط میکنند.
جانکی ناوال، زبانشناس در AI4Bharat، میگوید که رونویسی دادههای جمعآوریشده بسیار چالش برانگیز است. ، IIT-M، فهرستی از مشکلاتی را که در طول طراحی مجموعه داده “IndicVoices” با آن مواجه شد، فهرست می کند که با استفاده از IndicASR – اولین مدل تشخیص خودکار گفتار که از همه 22 زبان [در برنامه هشتم] پشتیبانی می کند – ساخته شده است.
«پروژههایی مانند IndicTrans و IndicVoices در AI4Bharat فرصتهایی را به مترجمان، کارشناسان زبان، سخنرانان بومی، سازمانهای غیردولتی و شرکای محلی داد تا در کارهای مختلف زبانی شرکت کنند. ترجمه و رونویسی دادهها برای ماشینها کار دشواری است، زیرا در بیشتر موارد، حاشیهنویسی در یک جمله یا سطح بیان بدون بافت معنایی طولانی انجام میشود. گاهی اوقات، جملات ترجمه شده میتوانند طولانی باشند و به دلیل محدودیتهای نحو زبان مقصد، ترجمه آنها چالش برانگیز است. تنوع زبان های هندی نیز کمکی نمی کند، مانند راست به چپ نوشتن اردو و کشمیری. نشانگرهای وجهی و خط میتی مایک مانیپوری. و ناتوانی خط استاندارد در نوشتن کلمات محاوره ای. از این رو، از منظر علمی، قوانین حاشیه نویسی خاصی باید برای حفظ ثبات در داده ها در بین زبان ها ایجاد شود، در حالی که اجازه می دهد تا آزادی صحت زبان را بدون محدود شدن توسط این “قوانین” برای کاربردهای متنوع، ثبت کند.
مشکلات فنی نیز چالشهایی را ایجاد میکنند. واحدهای پردازش گرافیکی (GPU) به اندازه داده ها برای LLM ها حیاتی هستند تا حجم عظیمی از اطلاعاتی که دستگاه بر روی آنها آموزش دیده است را پردازش کند. LLM ها با میلیاردها پارامتر سروکار دارند و روی پتابایت داده کار می کنند. برای آموزش آنها، به تراشه های H100 [ساخته شده توسط NVIDIA] برای خرد کردن حجم زیادی از داده ها یا مدل های یادگیری ماشین نیاز است. علاوه بر نرخ های گران، نیاز به یک رم تخصصی، منبع تغذیه و مادربرد، در میان سایر موارد، وجود دارد که به منابع بسیار فنی برای کنار هم قرار دادن مونتاژ نیاز دارد. Ranjith Melarkode، بنیانگذار The Neural.ai، می گوید و به طور موثر برای آموزش یک LLM استفاده می شود.
محاسبات رمزی
به طور کلی، هوش مصنوعی دارای برای شکستن یک جمله یا کلمه ای که به آن داده می شود به “توکن ها”، و این دستگاه در مقایسه با زبانی مانند هندی یا تامیل، نشانه های کمتری برای انگلیسی تولید می کند. آقای Ranjith میگوید: «توکنیزاسیون بالاتر به مدل اجازه میدهد تا ظرافتهای ظریف زبان را به تصویر بکشد و ورودیهای متنوعی را مدیریت کند – که در زبانهای هندی که کلمات اغلب ریشههای مشترکی در بین زبانها دارند، بسیار مورد نیاز هستند. این وفاداری و انعطافپذیری اغلب به قیمت افزایش محاسبات و منابع است. یافتن تعادل مناسب بین کارایی مدل و وفاداری [و هزینه] بسیار مهم است.»
خانم. Nawale می گوید که درگیر کردن تعداد زیادی از افراد در کارهای جزئیات گرا چالش برانگیز است. او میگوید: «برای دریافت محتوای ۲۰ دقیقهای از یک فرد، باید سه تا چهار ساعت با او کار کرد، که برخی از آنها با آن موافق نیستند. سانجی سوریانارایانان، مهندس محقق، AI4Bharat، تأیید میکند که با درک این موضوع که تلاشها برای ترویج، دیجیتالی کردن و حفظ زبان آنها که در غیر این صورت ممکن است در حال کاهش باشد، همکاری خود را گسترش میدهند. ، IIT-M. فاکتورها و حوزهها (موضوعات) مختلفی باید قبل از اینکه دادهها به دستگاه داده شود بررسی شود تا محصول نهایی کارآمدتر شود. به عنوان مثال، برای ارزیابی مدلهای ترجمه (مدلهای هوش مصنوعی که برای ترجمه محتوای متنی از یک زبان به زبان دیگر طراحی شدهاند)، توسعهدهندگان به دنبال «دادههای موازی استاندارد طلایی» هستند – محتوایی که توسط انسان ترجمه میشود، نه ماشینها. مدل مترجمان به صورت دستی یک متن را از انگلیسی به یک زبان هندی ترجمه می کنند و آن را به دستگاه می دهند. پس از تولید متن ترجمه شده، از دستگاه خواسته می شود که دوباره آن را به انگلیسی ترجمه کند. به این فرآیند ترجمه برگشتی می گویند.
این فقط یک چرخ دنده در مجموعه بزرگتر است. علاوه بر این، آقای سانجی میگوید، مهندسی سریع (که در آن دستورالعمل به گونهای طراحی شده است که مدل هوش مصنوعی بتواند به درخواست ارائه شده بپیوندد) باید روی آن متمرکز شود. او می افزاید: «هدف نهایی این است که مدل های هوش مصنوعی را تا حد امکان پیچیده کنیم.
علاوه بر این، زمانی که LLM ها ساخته می شوند، مگر اینکه چشم انداز، تیم و تجربه عملیاتی مناسبی وجود داشته باشد، این شانس وجود دارد که آقای Ranjith می گوید که به طور ناخواسته “سوگیری ها [برخاسته از درون تیم ها]” در سیستم منتشر می شود. ممکن است یک تیم از عملکرد تیم دیگر آگاه نباشد. تیم داده ممکن است با تجربه کاربر یا تیم مطابقت قانونی در تعامل نباشد. آنها ممکن است در لایههای سطحی صحبت کنند، اما نه در سطح عمیقتر، و این نگرانی دائمی وجود دارد که آیا سوگیریها [در مدل در حال ساخت] وارد میشوند یا خیر.
علاوه بر این، LLMها هستند. به طور مداوم آموزش دیده و تنظیم شود. روند ادامه دارد. او نتیجه می گیرد: “فقط در این صورت است که ما دقت مورد نظر خود را به دست خواهیم آورد.”
مزایای
LLM های هندی، زمانی که به صورت جامع طراحی شوند، می توانند انواع مختلفی داشته باشند. برنامه های کاربردی نها* عقیده دارد که از دورههای یادگیری تعاملی گرفته تا چتباتها و احیای زبانهایی مانند دوگری میتوان از این طریق امکانپذیر شد.
هاری تیاگاراجان، رئیس TCE، میگوید: «پتانسیل زیادی در [هندیسازی» وجود دارد. AI] به عنوان کشور دارای بیش از 20 زبان [در برنامه هشتم قانون اساسی]. [در مورد تامارای]، تامیل یک زبان کلاسیک است و دیاسپورای تامیل در سراسر جهان پراکنده است. از این رو، استفاده از تامیل سود زیادی خواهد داشت — کاری که قبلا انجام نشده است. همچنین، به عنوان راهی برای ترویج زبان عمل می کند. فردا، اگر یک تامیل LLM بتواند کاری را که ChatGPT انگلیسی انجام می دهد انجام دهد، صنعت از آن سود خواهد برد و زبان حفظ خواهد شد.