به گفته محققان، مهارتهای استدلال مدلهای زبانی بزرگ اغلب بیش از حد برآورد میشود
وقتی صحبت از هوش مصنوعی می شود، ظاهر می تواند فریبنده باشد. رمز و راز پیرامون عملکرد درونی مدلهای زبانی بزرگ (LLM) از اندازه وسیع، روشهای آموزشی پیچیده، رفتارهای غیرقابل پیشبینی و تفسیرپذیری گریزان آنها ناشی میشود.
محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) اخیراً به ذره بین ضرب المثل نگاه کردند تا نحوه عملکرد LLM ها را با انواع وظایف مختلف بررسی کنند و بینش های جالبی را در مورد تعامل بین مهارت های به خاطر سپردن و استدلال آشکار کنند. معلوم می شود که توانایی های استدلال آنها اغلب بیش از حد برآورد می شود.
این تحقیق در سرور پیشچاپ arXiv منتشر شده است.
این مطالعه «وظایف پیشفرض» را مقایسه کرد، وظایف رایجی که یک مدل آموزش دیده و آزمایش شده است، با “سناریوهای خلاف واقع”، موقعیت های فرضی انحراف از شرایط پیش فرض – که معمولاً می توان انتظار داشت مدل هایی مانند GPT-4 و Claude با آنها کنار بیایند. محققان برخی از آزمایشها را در خارج از محدوده راحتی مدلها با تغییر دادن وظایف موجود به جای ایجاد وظایف کاملاً جدید توسعه دادند. آنها از مجموعههای داده و معیارهای مختلفی استفاده کردند که به طور خاص برای جنبههای مختلف قابلیتهای مدلها برای مواردی مانند حساب، شطرنج، ارزیابی کد، پاسخ دادن به سؤالات منطقی و غیره طراحی شدهاند.
هنگامی که کاربران با مدلهای زبان تعامل دارند، هر حسابی معمولاً در پایه 10 است، پایه اعداد آشنا برای مدلها. اما مشاهده اینکه آنها در پایه 10 به خوبی عمل می کنند، می تواند تصور نادرستی از اینکه آنها علاوه بر این صلاحیت قوی دارند به ما بدهد. منطقاً، اگر آنها واقعاً مهارتهای جمعآوری خوبی داشته باشند، انتظار عملکرد قابلاعتماد بالایی در همه پایههای اعداد، مشابه ماشینحسابها یا رایانهها دارید.
در واقع، تحقیقات نشان داد که این مدلها آنقدر که بسیاری در ابتدا فکر میکردند قوی نیستند. عملکرد بالا آنها محدود به انواع کارهای رایج است و از یکنواخت و شدید رنج می برند کاهش عملکرد در سناریوهای خلاف واقع ناآشنا، که نشان دهنده فقدان توانایی جمع قابل تعمیم است.
این الگو برای بسیاری از کارهای دیگر مانند انگشت گذاری آکورد موسیقی، استدلال فضایی، و حتی مشکلات شطرنج که موقعیت شروع مهره ها کمی تغییر کرده بود صادق بود. در حالی که انتظار میرود بازیکنان انسانی همچنان بتوانند قانونی بودن حرکات را در سناریوهای تغییر یافته تعیین کنند (با توجه به زمان کافی)، مدلها با مشکل مواجه شدند و نتوانستند بهتر از حدس زدن تصادفی عمل کنند، به این معنی که توانایی محدودی برای تعمیم به موقعیتهای ناآشنا دارند. و بسیاری از عملکرد آنها در کارهای استاندارد احتمالاً به دلیل تواناییهای کلی کار نیست، بلکه به خاطر تطبیق بیش از حد یا به خاطر سپردن مستقیم آن چیزی است که در داده های آموزشی.
“ما یک جنبه جذاب از مدلهای زبان بزرگ را کشف کردهایم: آنها در سناریوهای آشنا، تقریباً مانند یک مسیر فرسوده، عالی هستند، اما زمانی که زمین ناآشنا میشود، با مشکل مواجه میشوند. این بینش در تلاش برای بهبود این مدلها بسیار مهم است. ژائوفنگ وو، دکترای MIT می گوید: سازگاری و گسترش افق های کاربرد آنها. دانشجوی رشته مهندسی برق و علوم کامپیوتر، وابسته به CSAIL، و نویسنده اصلی مقاله جدید.
“از آنجایی که هوش مصنوعی در جامعه ما به طور فزاینده ای در حال فراگیر شدن است، باید به طور قابل اعتماد سناریوهای مختلف را، چه آشنا و چه غیر آشنا، مدیریت کند. امیدواریم این بینش ها روزی به طراحی LLM های آینده با استحکام بهتر کمک کند.”
علی رغم بینش های به دست آمده، البته محدودیت هایی وجود دارد. تمرکز مطالعه بر روی وظایف خاص و تنظیمات طیف کاملی را نشان ندادند از چالشهایی که مدلها به طور بالقوه میتوانند در برنامههای کاربردی دنیای واقعی با آن مواجه شوند، نشاندهنده نیاز به محیطهای آزمایشی متنوعتر است.
کار آینده می تواند شامل گسترش دامنه وظایف و شرایط خلاف واقع برای کشف نقاط ضعف احتمالی بیشتر باشد. این می تواند به معنای نگاه کردن به سناریوهای پیچیده تر و کمتر رایج باشد. این تیم همچنین میخواهد با ایجاد روشهایی برای درک بهتر منطق پشت فرآیندهای تصمیمگیری مدلها، تفسیرپذیری را بهبود بخشد.
هائو پنگ، استادیار دانشگاه ایلینویز در Urbana-Champaign، میگوید: «با افزایش مقیاسهای مدلهای زبان، درک دادههای آموزشی آنها حتی برای مدلهای باز، چه رسد به مدلهای اختصاصی، چالشبرانگیزتر میشود.
“جامعه در مورد اینکه آیا این مدلها واقعاً به کارهای نادیده تعمیم میدهند یا ظاهراً با به خاطر سپردن دادههای آموزشی موفق میشوند، متحیر مانده است. این مقاله گامهای مهمی در پرداختن به این سؤال برداشته است. مجموعهای از ارزیابیهای خلاف واقع با دقت طراحی شده ایجاد میکند و بینش جدیدی ارائه میکند. به تواناییهای پیشرفتهترین LLM نشان میدهد که توانایی آنها برای حل وظایف نامرئی شاید بسیار محدودتر از آن چیزی است که بسیاری از آنها پیشبینی میکنند بهتر است.”
نویسندگان دیگر عبارتند از ناجونگ کیم، که استادیار دانشگاه بوستون و محقق بازدیدکننده گوگل است، و هفت شرکت وابسته به CSAIL: MIT مهندسی برق و علوم کامپیوتر (EECS) Ph.D. دانشجویان لینلو کیو، الکسیس راس، اکین آکیورک اس ام، و بویوان چن. بایلین وانگ، پسادکتر سابق و محقق هوش مصنوعی اپل. و استادیاران EECS، جاکوب آندریاس و یون کیم.
این تیم ماه گذشته این کار را در بخش آمریکای شمالی انجمن زبانشناسی محاسباتی (NAACL) ارائه کرد.
اطلاعات بیشتر:
ژائوفنگ وو و همکاران، استدلال یا تلاوت؟ کاوش در قابلیتها و محدودیتهای مدلهای زبان از طریق کارهای خلاف واقع، arXiv (2023). DOI: 10.48550/arxiv.2307.02477
arXiv
موسسه فناوری ماساچوست
این داستان توسط MIT News بازنشر شده است (web.mit.edu/newsoffice/)، یک سایت محبوب که اخبار مربوط به تحقیقات، نوآوری و آموزش MIT را پوشش می دهد.
نقل:
به گفته محققان، مهارتهای استدلال مدلهای بزرگ زبان اغلب بیش از حد برآورد میشود (2024، 11 ژوئیه)
بازیابی شده در 12 ژوئیه 2024
از https://techxplore.com/news/2024-07-skills-large-language-overestimated.html
این برگه یا سند یا نوشته تحت پوشش قانون کپی رایت است. جدا از هرگونه معامله منصفانه به منظور مطالعه یا تحقیق خصوصی، خیر
بخش بدون اجازه کتبی قابل تکثیر است. محتوای مذکور فقط به هدف اطلاع رسانی ایجاد شده است.