به گفته محققان، مهارت‌های استدلال مدل‌های زبانی بزرگ اغلب بیش از حد برآورد می‌شود

6 روز پیش

به گفته محققان، مهارت‌های استدلال مدل‌های زبانی بزرگ اغلب بیش از حد برآورد می‌شود

محققان MIT بررسی کردند که چگونه LLM ها با تنوع وظایف مختلف انجام می شوند و مهارت های به خاطر سپردن و استدلال آنها را مورد آزمایش قرار دادند. نتیجه: توانایی استدلال آنها اغلب بیش از حد برآورد می شود. اعتبار: Alex Shipps/MIT CSAIL

وقتی صحبت از هوش مصنوعی می شود، ظاهر می تواند فریبنده باشد. رمز و راز پیرامون عملکرد درونی مدل‌های زبانی بزرگ (LLM) از اندازه وسیع، روش‌های آموزشی پیچیده، رفتارهای غیرقابل پیش‌بینی و تفسیرپذیری گریزان آنها ناشی می‌شود.

محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) اخیراً به ذره بین ضرب المثل نگاه کردند تا نحوه عملکرد LLM ها را با انواع وظایف مختلف بررسی کنند و بینش های جالبی را در مورد تعامل بین مهارت های به خاطر سپردن و استدلال آشکار کنند. معلوم می شود که توانایی های استدلال آنها اغلب بیش از حد برآورد می شود.

این تحقیق در سرور پیش‌چاپ arXiv منتشر شده است.

این مطالعه «وظایف پیش‌فرض» را مقایسه کرد، وظایف رایجی که یک مدل آموزش دیده و آزمایش شده است، با “سناریوهای خلاف واقع”، موقعیت های فرضی انحراف از شرایط پیش فرض – که معمولاً می توان انتظار داشت مدل هایی مانند GPT-4 و Claude با آنها کنار بیایند. محققان برخی از آزمایش‌ها را در خارج از محدوده راحتی مدل‌ها با تغییر دادن وظایف موجود به جای ایجاد وظایف کاملاً جدید توسعه دادند. آن‌ها از مجموعه‌های داده و معیارهای مختلفی استفاده کردند که به طور خاص برای جنبه‌های مختلف قابلیت‌های مدل‌ها برای مواردی مانند حساب، شطرنج، ارزیابی کد، پاسخ دادن به سؤالات منطقی و غیره طراحی شده‌اند.

هنگامی که کاربران با مدل‌های زبان تعامل دارند، هر حسابی معمولاً در پایه 10 است، پایه اعداد آشنا برای مدل‌ها. اما مشاهده اینکه آنها در پایه 10 به خوبی عمل می کنند، می تواند تصور نادرستی از اینکه آنها علاوه بر این صلاحیت قوی دارند به ما بدهد. منطقاً، اگر آنها واقعاً مهارت‌های جمع‌آوری خوبی داشته باشند، انتظار عملکرد قابل‌اعتماد بالایی در همه پایه‌های اعداد، مشابه ماشین‌حساب‌ها یا رایانه‌ها دارید.

در واقع، تحقیقات نشان داد که این مدل‌ها آنقدر که بسیاری در ابتدا فکر می‌کردند قوی نیستند. عملکرد بالا آنها محدود به انواع کارهای رایج است و از یکنواخت و شدید رنج می برند کاهش عملکرد در سناریوهای خلاف واقع ناآشنا، که نشان دهنده فقدان توانایی جمع قابل تعمیم است.

این الگو برای بسیاری از کارهای دیگر مانند انگشت گذاری آکورد موسیقی، استدلال فضایی، و حتی مشکلات شطرنج که موقعیت شروع مهره ها کمی تغییر کرده بود صادق بود. در حالی که انتظار می‌رود بازیکنان انسانی همچنان بتوانند قانونی بودن حرکات را در سناریوهای تغییر یافته تعیین کنند (با توجه به زمان کافی)، مدل‌ها با مشکل مواجه شدند و نتوانستند بهتر از حدس زدن تصادفی عمل کنند، به این معنی که توانایی محدودی برای تعمیم به موقعیت‌های ناآشنا دارند. و بسیاری از عملکرد آنها در کارهای استاندارد احتمالاً به دلیل توانایی‌های کلی کار نیست، بلکه به خاطر تطبیق بیش از حد یا به خاطر سپردن مستقیم آن چیزی است که در داده های آموزشی.

“ما یک جنبه جذاب از مدل‌های زبان بزرگ را کشف کرده‌ایم: آنها در سناریوهای آشنا، تقریباً مانند یک مسیر فرسوده، عالی هستند، اما زمانی که زمین ناآشنا می‌شود، با مشکل مواجه می‌شوند. این بینش در تلاش برای بهبود این مدل‌ها بسیار مهم است. ژائوفنگ وو، دکترای MIT می گوید: سازگاری و گسترش افق های کاربرد آنها. دانشجوی رشته مهندسی برق و علوم کامپیوتر، وابسته به CSAIL، و نویسنده اصلی مقاله جدید.

“از آنجایی که هوش مصنوعی در جامعه ما به طور فزاینده ای در حال فراگیر شدن است، باید به طور قابل اعتماد سناریوهای مختلف را، چه آشنا و چه غیر آشنا، مدیریت کند. امیدواریم این بینش ها روزی به طراحی LLM های آینده با استحکام بهتر کمک کند.”

علی رغم بینش های به دست آمده، البته محدودیت هایی وجود دارد. تمرکز مطالعه بر روی وظایف خاص و تنظیمات طیف کاملی را نشان ندادند از چالش‌هایی که مدل‌ها به طور بالقوه می‌توانند در برنامه‌های کاربردی دنیای واقعی با آن مواجه شوند، نشان‌دهنده نیاز به محیط‌های آزمایشی متنوع‌تر است.

کار آینده می تواند شامل گسترش دامنه وظایف و شرایط خلاف واقع برای کشف نقاط ضعف احتمالی بیشتر باشد. این می تواند به معنای نگاه کردن به سناریوهای پیچیده تر و کمتر رایج باشد. این تیم همچنین می‌خواهد با ایجاد روش‌هایی برای درک بهتر منطق پشت فرآیندهای تصمیم‌گیری مدل‌ها، تفسیرپذیری را بهبود بخشد.

هائو پنگ، استادیار دانشگاه ایلینویز در Urbana-Champaign، می‌گوید: «با افزایش مقیاس‌های مدل‌های زبان، درک داده‌های آموزشی آن‌ها حتی برای مدل‌های باز، چه رسد به مدل‌های اختصاصی، چالش‌برانگیزتر می‌شود.

“جامعه در مورد اینکه آیا این مدل‌ها واقعاً به کارهای نادیده تعمیم می‌دهند یا ظاهراً با به خاطر سپردن داده‌های آموزشی موفق می‌شوند، متحیر مانده است. این مقاله گام‌های مهمی در پرداختن به این سؤال برداشته است. مجموعه‌ای از ارزیابی‌های خلاف واقع با دقت طراحی شده ایجاد می‌کند و بینش جدیدی ارائه می‌کند. به توانایی‌های پیشرفته‌ترین LLM نشان می‌دهد که توانایی آن‌ها برای حل وظایف نامرئی شاید بسیار محدودتر از آن چیزی است که بسیاری از آنها پیش‌بینی می‌کنند بهتر است.”

نویسندگان دیگر عبارتند از ناجونگ کیم، که استادیار دانشگاه بوستون و محقق بازدیدکننده گوگل است، و هفت شرکت وابسته به CSAIL: MIT مهندسی برق و علوم کامپیوتر (EECS) Ph.D. دانشجویان لینلو کیو، الکسیس راس، اکین آکیورک اس ام، و بویوان چن. بایلین وانگ، پسادکتر سابق و محقق هوش مصنوعی اپل. و استادیاران EECS، جاکوب آندریاس و یون کیم.

این تیم ماه گذشته این کار را در بخش آمریکای شمالی انجمن زبان‌شناسی محاسباتی (NAACL) ارائه کرد.

اطلاعات بیشتر:
ژائوفنگ وو و همکاران، استدلال یا تلاوت؟ کاوش در قابلیت‌ها و محدودیت‌های مدل‌های زبان از طریق کارهای خلاف واقع، arXiv (2023). DOI: 10.48550/arxiv.2307.02477

اطلاعات مجله:
arXiv

تهیه شده توسط
موسسه فناوری ماساچوست

این داستان توسط MIT News بازنشر شده است (web.mit.edu/newsoffice/)، یک سایت محبوب که اخبار مربوط به تحقیقات، نوآوری و آموزش MIT را پوشش می دهد.

نقل:
به گفته محققان، مهارت‌های استدلال مدل‌های بزرگ زبان اغلب بیش از حد برآورد می‌شود (2024، 11 ژوئیه)
بازیابی شده در 12 ژوئیه 2024
از https://techxplore.com/news/2024-07-skills-large-language-overestimated.html

این برگه یا سند یا نوشته تحت پوشش قانون کپی رایت است. جدا از هرگونه معامله منصفانه به منظور مطالعه یا تحقیق خصوصی، خیر
بخش بدون اجازه کتبی قابل تکثیر است. محتوای مذکور فقط به هدف اطلاع رسانی ایجاد شده است.

حتما بخوانید : آمازون بازی‌های رایانه‌های شخصی را در طول Prime Day: Suicide Squad: Kill the Justice League، Chivalry 2 و موارد دیگر اهدا می‌کند.