ماراتن، نه دوی سرعت: توسعه ChatGPT های معتبر برای زبان های هندی 

ماراتن، نه دوی سرعت: توسعه ChatGPT های معتبر برای زبان های هندی 

در گامی مهم به سوی هندی شدن هوش مصنوعی (AI)، اوایل این ماه، هوش مصنوعی Sarvam مستقر در بنگلور مجموعه ای از محصولات را برای تغییر چشم انداز هوش مصنوعی در این کشور ارائه کرد. یکی از آنها Sarvam 2B بود — یک مدل زبان بزرگ منبع باز (LLM) که به 10 زبان هندی مسلط است. 

دموکراتیک کردن هوش مصنوعی، در دسترس قرار دادن آن برای هر هندی صرف نظر از پیشینه زبانی و اجتماعی-اقتصادی آنها، و پر کردن شکاف دیجیتالی، هدف مورد نظر است، یکی از بنیانگذاران شرکت پس از راه اندازی پست کرد. 

LLMها در سال گذشته با راه اندازی GPT4 شرکت آمریکایی OpenAI – نسخه پیشرفته ChatGPT این شرکت که گفته می شد قادر به درک احساسات انسانی و پاسخگویی به آن است، در اخبار منتشر شد. در حالی که ChatGPT، در حال حاضر، امکان تعامل در زبان‌های هندی، از جمله تامیل، مالایالام، و هندی را فراهم می‌کند، اما چیزهای زیادی را به خود می‌دهد – به ویژه در زمینه‌های درک تفاوت‌های ظریف زبان، لهجه‌ها، اصطلاحات و ارجاعات فرهنگی زبان‌های هندی. در میان دیگران 

در پاسخ به پرسشی در این زمینه، ربات چت از سوی خود می‌گوید که این ربات‌ها در یک LLM که از ابتدا طراحی شده است، بهتر نشان داده می‌شوند، برخلاف مدل هوش مصنوعی که از داده‌های در دسترس عموم ساخته شده است. 

نها*، که بیش از چهار سال در LLM کار کرده است، می‌گوید: هیچ ابتکاری وجود ندارد

توسعه LLM در زبان‌هایی به جز انگلیسی دشوار است. «داده‌ها و محتوای دیجیتالی موجود به زبان انگلیسی فراوان است و به عنوان پایه‌ای برای آموزش دستگاه عمل می‌کند. در مورد زبان های هندی، داده ها بسیار محدود هستند. او اضافه می‌کند که زمان زیادی طول می‌کشد و آموزش‌های زیادی برای رسیدن به جایی که انگلیسی در حال حاضر [در رابطه با LLMs] در آن قرار دارد، طول می‌کشد.

با این حال، مدتی است که تلاش‌ها در حال انجام است. در این زمینه توسط شرکت هایی مانند سروام که سال گذشته مدل هندی زبان “OpenHathi” را منتشر کرد. ابتکارات دولت مرکزی مانند باشینی که طیف وسیعی از ابزارهای هوش مصنوعی را فراهم می‌کند که امکان دسترسی به زبان‌های ترجیحی هندی را فراهم می‌کند. AI4Bharat، سرمایه‌گذاری مؤسسه فناوری هند-مدرس، در میان دیگران.

اخیراً، کالج مهندسی تیاگاراجار (TCE) در مادورای یک مرکز تحقیقاتی به نام تامارای را برای هوش مصنوعی در تامیل راه‌اندازی کرد.

>

این فرآیند دشوار است زیرا طراحی یک زبان هندی کارآمد LLM به مقادیر گسترده ای از داده های دقیق و معتبر نیاز دارد. «[در بیشتر موارد]، شرکت‌ها یا دانشگاه‌هایی که در این زمینه کار می‌کنند، به بهترین دانشگاه‌هایی که زبان مورد نظر در آنها تدریس می‌شود، دسترسی پیدا می‌کنند، با دانشکده در تماس هستند و کمی ادبیات در مورد این زبان تهیه می‌کنند. کمک سازمان های غیر دولتی (NGO) در جمع آوری داده ها [در زبان] در میدان مورد نظر است. عوامل در مناطق دورافتاده ای مستقر می شوند که در آن زبان هنوز بدون تأثیرپذیری از زبان های دیگر [مانند انگلیسی] صحبت می شود. سازمان‌های غیردولتی جلساتی را با ساکنان ترتیب می‌دهند، از آنها می‌خواهند در مورد چندین موضوع یا حوزه صحبت کنند، و مکالمات را ضبط می‌کنند.

جانکی ناوال، زبان‌شناس در AI4Bharat، می‌گوید که رونویسی داده‌های جمع‌آوری‌شده بسیار چالش برانگیز است. ، IIT-M، فهرستی از مشکلاتی را که در طول طراحی مجموعه داده “IndicVoices” با آن مواجه شد، فهرست می کند که با استفاده از IndicASR – اولین مدل تشخیص خودکار گفتار که از همه 22 زبان [در برنامه هشتم] پشتیبانی می کند – ساخته شده است. 

«پروژه‌هایی مانند IndicTrans و IndicVoices در AI4Bharat فرصت‌هایی را به مترجمان، کارشناسان زبان، سخنرانان بومی، سازمان‌های غیردولتی و شرکای محلی داد تا در کارهای مختلف زبانی شرکت کنند. ترجمه و رونویسی داده‌ها برای ماشین‌ها کار دشواری است، زیرا در بیشتر موارد، حاشیه‌نویسی در یک جمله یا سطح بیان بدون بافت معنایی طولانی انجام می‌شود. گاهی اوقات، جملات ترجمه شده می‌توانند طولانی باشند و به دلیل محدودیت‌های نحو زبان مقصد، ترجمه آن‌ها چالش برانگیز است. تنوع زبان های هندی نیز کمکی نمی کند، مانند راست به چپ نوشتن اردو و کشمیری. نشانگرهای وجهی و خط میتی مایک مانیپوری. و ناتوانی خط استاندارد در نوشتن کلمات محاوره ای. از این رو، از منظر علمی، قوانین حاشیه نویسی خاصی باید برای حفظ ثبات در داده ها در بین زبان ها ایجاد شود، در حالی که اجازه می دهد تا آزادی صحت زبان را بدون محدود شدن توسط این “قوانین” برای کاربردهای متنوع، ثبت کند. 

مشکلات فنی نیز چالش‌هایی را ایجاد می‌کنند. واحدهای پردازش گرافیکی (GPU) به اندازه داده ها برای LLM ها حیاتی هستند تا حجم عظیمی از اطلاعاتی که دستگاه بر روی آنها آموزش دیده است را پردازش کند. LLM ها با میلیاردها پارامتر سروکار دارند و روی پتابایت داده کار می کنند. برای آموزش آنها، به تراشه های H100 [ساخته شده توسط NVIDIA] برای خرد کردن حجم زیادی از داده ها یا مدل های یادگیری ماشین نیاز است. علاوه بر نرخ های گران، نیاز به یک رم تخصصی، منبع تغذیه و مادربرد، در میان سایر موارد، وجود دارد که به منابع بسیار فنی برای کنار هم قرار دادن مونتاژ نیاز دارد. Ranjith Melarkode، بنیانگذار The Neural.ai، می گوید و به طور موثر برای آموزش یک LLM استفاده می شود.

محاسبات رمزی

به طور کلی، هوش مصنوعی دارای برای شکستن یک جمله یا کلمه ای که به آن داده می شود به “توکن ها”، و این دستگاه در مقایسه با زبانی مانند هندی یا تامیل، نشانه های کمتری برای انگلیسی تولید می کند. آقای Ranjith می‌گوید: «توکنیزاسیون بالاتر به مدل اجازه می‌دهد تا ظرافت‌های ظریف زبان را به تصویر بکشد و ورودی‌های متنوعی را مدیریت کند – که در زبان‌های هندی که کلمات اغلب ریشه‌های مشترکی در بین زبان‌ها دارند، بسیار مورد نیاز هستند. این وفاداری و انعطاف‌پذیری اغلب به قیمت افزایش محاسبات و منابع است. یافتن تعادل مناسب بین کارایی مدل و وفاداری [و هزینه] بسیار مهم است.»

خانم. Nawale می گوید که درگیر کردن تعداد زیادی از افراد در کارهای جزئیات گرا چالش برانگیز است. او می‌گوید: «برای دریافت محتوای ۲۰ دقیقه‌ای از یک فرد، باید سه تا چهار ساعت با او کار کرد، که برخی از آنها با آن موافق نیستند. سانجی سوریانارایانان، مهندس محقق، AI4Bharat، تأیید می‌کند که با درک این موضوع که تلاش‌ها برای ترویج، دیجیتالی کردن و حفظ زبان آن‌ها که در غیر این صورت ممکن است در حال کاهش باشد، همکاری خود را گسترش می‌دهند. ، IIT-M. فاکتورها و حوزه‌ها (موضوعات) مختلفی باید قبل از اینکه داده‌ها به دستگاه داده شود بررسی شود تا محصول نهایی کارآمدتر شود. به عنوان مثال، برای ارزیابی مدل‌های ترجمه (مدل‌های هوش مصنوعی که برای ترجمه محتوای متنی از یک زبان به زبان دیگر طراحی شده‌اند)، توسعه‌دهندگان به دنبال «داده‌های موازی استاندارد طلایی» هستند – محتوایی که توسط انسان ترجمه می‌شود، نه ماشین‌ها. مدل مترجمان به صورت دستی یک متن را از انگلیسی به یک زبان هندی ترجمه می کنند و آن را به دستگاه می دهند. پس از تولید متن ترجمه شده، از دستگاه خواسته می شود که دوباره آن را به انگلیسی ترجمه کند. به این فرآیند ترجمه برگشتی می گویند. 

این فقط یک چرخ دنده در مجموعه بزرگتر است. علاوه بر این، آقای سانجی می‌گوید، مهندسی سریع (که در آن دستورالعمل به گونه‌ای طراحی شده است که مدل هوش مصنوعی بتواند به درخواست ارائه شده بپیوندد) باید روی آن متمرکز شود. او می افزاید: «هدف نهایی این است که مدل های هوش مصنوعی را تا حد امکان پیچیده کنیم.

علاوه بر این، زمانی که LLM ها ساخته می شوند، مگر اینکه چشم انداز، تیم و تجربه عملیاتی مناسبی وجود داشته باشد، این شانس وجود دارد که آقای Ranjith می گوید که به طور ناخواسته “سوگیری ها [برخاسته از درون تیم ها]” در سیستم منتشر می شود. ممکن است یک تیم از عملکرد تیم دیگر آگاه نباشد. تیم داده ممکن است با تجربه کاربر یا تیم مطابقت قانونی در تعامل نباشد. آنها ممکن است در لایه‌های سطحی صحبت کنند، اما نه در سطح عمیق‌تر، و این نگرانی دائمی وجود دارد که آیا سوگیری‌ها [در مدل در حال ساخت] وارد می‌شوند یا خیر.

علاوه بر این، LLM‌ها هستند. به طور مداوم آموزش دیده و تنظیم شود. روند ادامه دارد. او نتیجه می گیرد: “فقط در این صورت است که ما دقت مورد نظر خود را به دست خواهیم آورد.”

مزایای

LLM های هندی، زمانی که به صورت جامع طراحی شوند، می توانند انواع مختلفی داشته باشند. برنامه های کاربردی نها* عقیده دارد که از دوره‌های یادگیری تعاملی گرفته تا چت‌بات‌ها و احیای زبان‌هایی مانند دوگری می‌توان از این طریق امکان‌پذیر شد.

هاری تیاگاراجان، رئیس TCE، می‌گوید: «پتانسیل زیادی در [هندی‌سازی» وجود دارد. AI] به عنوان کشور دارای بیش از 20 زبان [در برنامه هشتم قانون اساسی]. [در مورد تامارای]، تامیل یک زبان کلاسیک است و دیاسپورای تامیل در سراسر جهان پراکنده است. از این رو، استفاده از تامیل سود زیادی خواهد داشت — کاری که قبلا انجام نشده است. همچنین، به عنوان راهی برای ترویج زبان عمل می کند. فردا، اگر یک تامیل LLM بتواند کاری را که ChatGPT انگلیسی انجام می دهد انجام دهد، صنعت از آن سود خواهد برد و زبان حفظ خواهد شد.

 

 

 

چنانچه در این نوشته کلمه ای یا متنی باعث ناراحتی شما شده به ما در قسمت نظرات اطلاع دهید

خروج از نسخه موبایل