You are currently viewing آیا مدل‌های زبان دانش‌آموز هستند یا حل‌کننده مشکلات واقعی؟  |  توسط Tula Masterman

آیا مدل‌های زبان دانش‌آموز هستند یا حل‌کننده مشکلات واقعی؟ | توسط Tula Masterman


ارزیابی تکامل و کاربرد مدل‌های زبان در کارهای دنیای واقعی

استاد تولا
به سوی علم داده
دانش آموزان هوش مصنوعی در یک امتحان در کلاس درس.  تصویر ایجاد شده توسط نویسنده و DALL-E 3.
دانش آموزان هوش مصنوعی در یک امتحان در کلاس درس. تصویر ایجاد شده توسط نویسنده و DALL-E 3.

در آموزش، بهترین امتحانات آنهایی هستند که دانش‌آموزان را به چالش می‌کشند تا آموخته‌های خود را به روش‌های جدید و غیرقابل پیش‌بینی به کار ببرند، و فراتر از به خاطر سپردن حقایق حرکت کنند تا درک واقعی را نشان دهند. ارزیابی ما از الگوهای زبان باید از همین الگو پیروی کند. از آنجایی که می‌بینیم مدل‌های جدید هر روز به فضای هوش مصنوعی سرازیر می‌شوند، چه از سوی غول‌هایی مانند OpenAI و Anthropic، یا از تیم‌های تحقیقاتی کوچک‌تر و دانشگاه‌ها، بسیار مهم است که ارزیابی‌های مدل ما عمیق‌تر از عملکرد معیارهای استاندارد باشد. تحقیقات نوظهور نشان می‌دهد که معیارهایی که برای اندازه‌گیری قابلیت‌های یک مدل به آن‌ها تکیه کرده‌ایم، آنقدر که قبلاً فکر می‌کردیم قابل اعتماد نیستند. به منظور دفاع مناسب از مدل‌های جدید، معیارهای ما باید به همان اندازه پویا و پیچیده باشد که چالش‌های دنیای واقعی برای این مدل‌ها و معماری‌های عامل هوش مصنوعی نوظهور برای حل آنها ایجاد می‌کنیم.

در این مقاله، پیچیدگی تخمین مدل زبان را با پاسخ به سوالات زیر بررسی خواهیم کرد:

  1. امروزه مدل های زبان چگونه ارزیابی می شوند؟
  2. مدل های زبانی که از معیارها بهتر عمل می کنند چقدر قابل اعتماد هستند؟
  3. آیا مدل های زبان و عوامل هوش مصنوعی می توانند دانش را به عمل تبدیل کنند؟
  4. چرا باید مدل های زبان (یا مدل های پایه) بیشتر از متن تسلط داشته باشند؟

بنابراین الگوهای زبان امروزه چگونه ارزیابی می شوند؟

امروزه، اکثر مدل‌ها، مدل‌های زبان بزرگ (LLM) یا مدل‌های زبان کوچک (SLM)، بر اساس مجموعه‌ای از معیارهای رایج ارزیابی می‌شوند، از جمله درک زبان چندوظیفه عظیم (MMLU)، ریاضی مدرسه پایه (GSM8K) و Big-Bench Hard. (BBH) مجموعه های داده در میان دیگران.

برای ارائه درک عمیق‌تر از انواع وظایفی که هر معیار ارزیابی می‌کند، در اینجا چند نمونه سوال از هر مجموعه داده آورده شده است:

  • MMLU: برای اندازه‌گیری اطلاعاتی که مدل در طول پیش‌آموزش در موضوعات مختلف مبتنی بر STEM و علوم انسانی و سطوح دشواری از مبتدی تا درک حرفه‌ای پیشرفته با استفاده از سؤالات چند گزینه‌ای آموخته است، طراحی شده است.
    نمونه سوال برای کالج پزشکی MMLU: “آزمایش ژنتیکی یک نوزاد تازه متولد شده یک اختلال ژنتیکی نادر را نشان داد که دارای انتقال مغلوب مرتبط با X است. کدام یک از عبارات زیر در مورد شجره نامه این اختلال به احتمال زیاد درست است؟ الف. همه فرزندان مادری به این اختلال مبتلا خواهند شد. ب. احتمال ابتلای زنان تقریباً دو برابر بیشتر از مردان خانواده است. ج- همه دختران یک مرد مبتلا تحت تأثیر قرار خواهند گرفت. د. توزیع یکسانی از مردان و زنان مبتلا وجود خواهد داشت.» (پاسخ صحیح ج است) [2]
  • GSM8K: مدل‌های زبان معمولاً برای حل سؤالات ریاضی با مشکل مواجه می‌شوند، مجموعه داده GSM8K توانایی مدل‌ها در استدلال و حل مسائل ریاضی را با استفاده از 8.5000 مسئله مختلف ریاضی مدرسه ارزیابی می‌کند.
    مثال: «مادر دین به او ۲۸ دلار داد تا به خواربارفروشی برود. دین 6 ماشین اسباب بازی و 5 خرس عروسکی خرید. قیمت هر ماشین اسباب بازی 12 دلار و هر خرس عروسکی 1 دلار است. سپس مادرش احساس سخاوتمندی می کند و تصمیم می گیرد 10 دلار اضافی به او بدهد. چقدر پول برای دین باقی مانده است؟ [3]
  • BBH: این مجموعه داده شامل 23 مشکل از مجموعه داده های Big Bench است که مدل های زبان به طور سنتی برای حل آنها تلاش می کردند. این کارها معمولاً برای انجام موفقیت آمیز کار به استدلال چند مرحله ای نیاز دارند.
    مثال: «اگر این دستورالعمل ها را دنبال کنید، آیا به نقطه شروع باز می گردید؟ به سمت چپ برو، به سمت چپ برگرد. بپیچ به راست. 5 قدم بردارید. 4 قدم بردارید بچرخ. 9 قدم بردارید گزینه ها: – بله – خیر [4]

اعلامیه اخیر آنتروپیک از کلود-3 نشان می دهد که مدل Opus آنها در بیشتر معیارهای کلی از GPT-4 به عنوان مدل پیشرو بهتر عمل می کند. به عنوان مثال، Claude-3 Opus با 86.8٪ عملکرد در MMLU، کمی بهتر از GPT-4، که امتیاز 86.4٪ را کسب کرد. Claude-3 Opus همچنین در GSM8K 95% و در BBH 86.8% در مقایسه با 92% و 83.1% در GPT-4 به ترتیب امتیاز کسب کرد. [1].

در حالی که عملکرد مدل هایی مانند GPT-4 و Claude در این معیارها چشمگیر است، این وظایف همیشه نشان دهنده انواع چالش هایی نیستند که کسب و کارها می خواهند حل کنند. علاوه بر این، تحقیقات رو به رشدی وجود دارد که نشان می دهد مدل ها به جای درک سؤالات معیار، آنها را حفظ می کنند. این لزوماً به این معنا نیست که مدل‌ها را نمی‌توان به کارهای جدید تعمیم داد، ما هر روز شاهد انجام کارهای شگفت‌انگیز LLMها و SLMها هستیم، اما به این معنی است که باید در نحوه ارزیابی، امتیازدهی و ارتقای مدل‌ها تجدید نظر کنیم.

مدل های زبانی که از معیارها بهتر عمل می کنند چقدر قابل اعتماد هستند؟

تحقیقات انجام شده توسط مایکروسافت، مؤسسه اتوماسیون CAS و دانشگاه علم و صنعت چین نشان می‌دهد که چگونه وقتی از مدل‌های زبان مختلف پرسیده می‌شود، سؤالات معیار بازنویسی یا اصلاح شده است، عملکرد مدل‌ها به طور قابل‌توجهی بدتر از زمانی است که از همان سؤال معیار بدون تغییر پرسیده می‌شود. برای هدف تحقیق خود، همانطور که در مقاله DyVal 2 نشان داده شده است، محققان سؤالات را از معیارهایی مانند MMLU گرفتند و آنها را با بازنویسی سؤال، افزودن یک پاسخ اضافی به سؤال، بازنویسی پاسخ ها، تغییر پاسخ ها اصلاح کردند. ، یا اضافه کردن محتوای اضافی به سوال. هنگام مقایسه عملکرد مدل در مجموعه داده «وانیل» در برابر سؤالات اصلاح شده، آنها شاهد افت عملکرد هستند، به عنوان مثال. GPT-4 در سؤالات MMLU وانیلی امتیاز 84.4 و در سؤالات MMLU اصلاح شده 68.86 کسب کرد. [5].

منبع: DyVal2، عملکرد مدل در معیارهای وانیلی در مقایسه با معیار پروبینگ

به طور مشابه، تحقیقات گروه علوم کامپیوتر در دانشگاه آریزونا نشان می دهد که وجود دارد میزان قابل توجهی از آلودگی داده ها در مدل های زبانی [6]. این بدان معنی است که اطلاعات موجود در معیارها بخشی از داده های آموزشی مدل ها می شود و به طور موثر نتایج معیار را بی ربط می کند زیرا مدل ها بر روی اطلاعاتی که روی آنها آموزش دیده اند آزمایش می شوند.

تحقیقات اضافی از دانشگاه فودان، دانشگاه تونگجی و علی‌بابا نیاز به برآوردگرهای پویا خود-تکاملی را برای عوامل هوش مصنوعی برای مبارزه با مشکلات آلودگی داده‌ها و حفظ معیارها برجسته می‌کند. [7]. این معیارهای پویا به مدل‌ها کمک می‌کند اطلاعاتی را در طول دوره‌های پیش‌آموزشی که بعداً روی آن‌ها آزمایش می‌شوند، به خاطر نیاورند یا یاد نگیرند. اگرچه جریان مکرر معیارهای جدید می تواند هنگام مقایسه یک مدل قدیمی با یک مدل جدیدتر چالش هایی را ایجاد کند، در حالت ایده آل این معیارها مسائل آلودگی داده ها را کاهش داده و اندازه گیری میزان درک مدل از موضوعات آموزشی را آسان تر می کند.

هنگام ارزیابی توانایی یک مدل در مورد یک مشکل خاص، باید درک کنیم که مدل چقدر اطلاعات آموخته شده در طول آموزش قبلی را درک می کند و اینکه چقدر می تواند به وظایف یا مفاهیم جدید خارج از داده های آموزشی خود تعمیم دهد.

آیا مدل های زبان و عوامل هوش مصنوعی می توانند دانش را به عمل تبدیل کنند؟

از آنجایی که ما به دنبال استفاده از مدل‌ها به‌عنوان عوامل هوش مصنوعی برای انجام اقداماتی از جانب خود هستیم، خواه رزرو تعطیلات، نوشتن گزارش یا تحقیق در مورد موضوعات جدید برای ما باشد، به معیارها یا مکانیسم‌های ارزیابی بیشتری نیاز خواهیم داشت. کسانی که می‌توانند قابلیت اطمینان و دقت را ارزیابی کنند. این عوامل اکثر کسب و کارهایی که به دنبال استفاده از قدرت مدل‌های زیربنایی هستند، نیازمند دسترسی مدل به انواع ابزارهای یکپارچه با منابع داده منحصربه‌فرد خود هستند و مدل را ملزم می‌کنند تا در مورد زمان و نحوه استفاده مؤثر از ابزارهای موجود، استدلال و برنامه‌ریزی کند. این نوع تکالیف در بسیاری از معیارهای LLM سنتی نشان داده نمی شوند.

منبع: AgentVerse، نتایج یک تیم از عوامل در مقایسه با یک عامل واحد در یک کار توسعه نرم افزار شامل فراخوانی ابزار و اجرای کد

برای پر کردن این شکاف، بسیاری از تیم‌های تحقیقاتی معیارها و چارچوب‌های خود را ایجاد می‌کنند که عملکرد عامل را در وظایفی که شامل استفاده از ابزار و دانش فراتر از داده‌های آموزشی مدل است، ارزیابی می‌کنند. به عنوان مثال، نویسندگان AgentVerse ارزیابی کردند که چگونه تیم‌های عامل می‌توانند وظایف دنیای واقعی شامل برنامه‌ریزی رویداد، توسعه نرم‌افزار و مشاوره را انجام دهند. محققان مجموعه ای از 10 کار آزمایشی خود را ایجاد کردند که به صورت دستی مورد ارزیابی قرار گرفت تا مشخص شود که آیا عوامل مجموعه اقدامات صحیحی را انجام می دهند، از ابزار صحیح استفاده می کنند و به یک نتیجه دقیق می رسند. آنها دریافتند که تیم‌هایی از عواملی که در یک چرخه با مراحل تعریف‌شده برای جذب نماینده، برنامه‌ریزی وظیفه، اجرای مستقل وظایف و ارزیابی بعدی کار می‌کنند، در مقایسه با عوامل مستقل به نتایج برتر می‌رسند. [8].

فراتر از روش های منفرد و به دنیای واقعی. چرا باید مدل های زبان (یا مدل های پایه) بیشتر از متن تسلط داشته باشند؟

به نظر من، معماری‌های عامل و معیارهای نوظهور گامی عالی برای درک اینکه چگونه مدل‌های زبانی در مسائل تجاری‌محور عملکرد خوبی خواهند داشت، اما یک محدودیت این است که بیشتر آنها هنوز بر روی متن متمرکز هستند. همانطور که جهان و ماهیت پویای بیشتر محیط‌های کاری را در نظر می‌گیریم، به سیستم‌ها و مدل‌های عاملی نیاز خواهیم داشت که هم عملکرد وظایف متنی و هم وظایف دیداری و شنیداری را با هم ارزیابی کنند. مجموعه داده AlgoPuzzleVQA نمونه ای از ارزیابی مدل ها بر اساس توانایی آنها در استدلال، خواندن و تفسیر بصری پازل های ریاضی و الگوریتمی است. [9].

منبع: آیا الگوهای زبان معماهای معجزه آسایی هستند؟ نمونه سوالات از مجموعه داده AlgoPuzzleVQA

در حالی که ممکن است کسب‌وکارها اهمیتی به این موضوع نداشته باشند که چگونه یک مدل می‌تواند یک معما را حل کند، اما هنوز گامی در مسیر درست برای درک اینکه مدل‌ها چقدر خوب می‌توانند درباره اطلاعات چندوجهی استدلال کنند، است.

نتیجه

همانطور که ما به اتخاذ الگوهای اساسی در کارهای روزمره و تلاش های حرفه ای خود ادامه می دهیم، به گزینه های ارزیابی اضافی نیاز داریم که منعکس کننده مسائل دنیای واقعی باشد. معیارهای پویا و چندوجهی یکی از اجزای کلیدی این است. با این حال، با معرفی چارچوب‌ها و معماری‌های عامل اضافی با بسیاری از عوامل هوش مصنوعی که برای حل یک مشکل همکاری می‌کنند، ارزیابی و مقایسه بین مدل‌ها و چارچوب‌ها حتی چالش‌برانگیزتر می‌شود. معیار واقعی مدل‌های زیربنایی در توانایی آن‌ها برای شکست دادن تست‌های استاندارد نیست، بلکه در توانایی آنها برای درک، تطبیق و عمل در دنیای واقعی پیچیده و اغلب غیرقابل پیش‌بینی است. با تغییر روش ارزیابی مدل‌های زبانی، این مدل‌ها را به چالش می‌کشیم تا از هوش متنی و دانشمندان معیار به متفکران کل نگر تبدیل شوند که قادر به مقابله با چالش‌های چند وجهی (و چندوجهی) هستند.

به بحث یا همکاری بیشتر علاقه مندید؟ تماس گرفتن لینکدین!



Source link