ارزیابی تکامل و کاربرد مدلهای زبان در کارهای دنیای واقعی
در آموزش، بهترین امتحانات آنهایی هستند که دانشآموزان را به چالش میکشند تا آموختههای خود را به روشهای جدید و غیرقابل پیشبینی به کار ببرند، و فراتر از به خاطر سپردن حقایق حرکت کنند تا درک واقعی را نشان دهند. ارزیابی ما از الگوهای زبان باید از همین الگو پیروی کند. از آنجایی که میبینیم مدلهای جدید هر روز به فضای هوش مصنوعی سرازیر میشوند، چه از سوی غولهایی مانند OpenAI و Anthropic، یا از تیمهای تحقیقاتی کوچکتر و دانشگاهها، بسیار مهم است که ارزیابیهای مدل ما عمیقتر از عملکرد معیارهای استاندارد باشد. تحقیقات نوظهور نشان میدهد که معیارهایی که برای اندازهگیری قابلیتهای یک مدل به آنها تکیه کردهایم، آنقدر که قبلاً فکر میکردیم قابل اعتماد نیستند. به منظور دفاع مناسب از مدلهای جدید، معیارهای ما باید به همان اندازه پویا و پیچیده باشد که چالشهای دنیای واقعی برای این مدلها و معماریهای عامل هوش مصنوعی نوظهور برای حل آنها ایجاد میکنیم.
در این مقاله، پیچیدگی تخمین مدل زبان را با پاسخ به سوالات زیر بررسی خواهیم کرد:
- امروزه مدل های زبان چگونه ارزیابی می شوند؟
- مدل های زبانی که از معیارها بهتر عمل می کنند چقدر قابل اعتماد هستند؟
- آیا مدل های زبان و عوامل هوش مصنوعی می توانند دانش را به عمل تبدیل کنند؟
- چرا باید مدل های زبان (یا مدل های پایه) بیشتر از متن تسلط داشته باشند؟
بنابراین الگوهای زبان امروزه چگونه ارزیابی می شوند؟
امروزه، اکثر مدلها، مدلهای زبان بزرگ (LLM) یا مدلهای زبان کوچک (SLM)، بر اساس مجموعهای از معیارهای رایج ارزیابی میشوند، از جمله درک زبان چندوظیفه عظیم (MMLU)، ریاضی مدرسه پایه (GSM8K) و Big-Bench Hard. (BBH) مجموعه های داده در میان دیگران.
برای ارائه درک عمیقتر از انواع وظایفی که هر معیار ارزیابی میکند، در اینجا چند نمونه سوال از هر مجموعه داده آورده شده است:
- MMLU: برای اندازهگیری اطلاعاتی که مدل در طول پیشآموزش در موضوعات مختلف مبتنی بر STEM و علوم انسانی و سطوح دشواری از مبتدی تا درک حرفهای پیشرفته با استفاده از سؤالات چند گزینهای آموخته است، طراحی شده است.
نمونه سوال برای کالج پزشکی MMLU: “آزمایش ژنتیکی یک نوزاد تازه متولد شده یک اختلال ژنتیکی نادر را نشان داد که دارای انتقال مغلوب مرتبط با X است. کدام یک از عبارات زیر در مورد شجره نامه این اختلال به احتمال زیاد درست است؟ الف. همه فرزندان مادری به این اختلال مبتلا خواهند شد. ب. احتمال ابتلای زنان تقریباً دو برابر بیشتر از مردان خانواده است. ج- همه دختران یک مرد مبتلا تحت تأثیر قرار خواهند گرفت. د. توزیع یکسانی از مردان و زنان مبتلا وجود خواهد داشت.» (پاسخ صحیح ج است) [2] - GSM8K: مدلهای زبان معمولاً برای حل سؤالات ریاضی با مشکل مواجه میشوند، مجموعه داده GSM8K توانایی مدلها در استدلال و حل مسائل ریاضی را با استفاده از 8.5000 مسئله مختلف ریاضی مدرسه ارزیابی میکند.
مثال: «مادر دین به او ۲۸ دلار داد تا به خواربارفروشی برود. دین 6 ماشین اسباب بازی و 5 خرس عروسکی خرید. قیمت هر ماشین اسباب بازی 12 دلار و هر خرس عروسکی 1 دلار است. سپس مادرش احساس سخاوتمندی می کند و تصمیم می گیرد 10 دلار اضافی به او بدهد. چقدر پول برای دین باقی مانده است؟ [3] - BBH: این مجموعه داده شامل 23 مشکل از مجموعه داده های Big Bench است که مدل های زبان به طور سنتی برای حل آنها تلاش می کردند. این کارها معمولاً برای انجام موفقیت آمیز کار به استدلال چند مرحله ای نیاز دارند.
مثال: «اگر این دستورالعمل ها را دنبال کنید، آیا به نقطه شروع باز می گردید؟ به سمت چپ برو، به سمت چپ برگرد. بپیچ به راست. 5 قدم بردارید. 4 قدم بردارید بچرخ. 9 قدم بردارید گزینه ها: – بله – خیر [4]
اعلامیه اخیر آنتروپیک از کلود-3 نشان می دهد که مدل Opus آنها در بیشتر معیارهای کلی از GPT-4 به عنوان مدل پیشرو بهتر عمل می کند. به عنوان مثال، Claude-3 Opus با 86.8٪ عملکرد در MMLU، کمی بهتر از GPT-4، که امتیاز 86.4٪ را کسب کرد. Claude-3 Opus همچنین در GSM8K 95% و در BBH 86.8% در مقایسه با 92% و 83.1% در GPT-4 به ترتیب امتیاز کسب کرد. [1].
در حالی که عملکرد مدل هایی مانند GPT-4 و Claude در این معیارها چشمگیر است، این وظایف همیشه نشان دهنده انواع چالش هایی نیستند که کسب و کارها می خواهند حل کنند. علاوه بر این، تحقیقات رو به رشدی وجود دارد که نشان می دهد مدل ها به جای درک سؤالات معیار، آنها را حفظ می کنند. این لزوماً به این معنا نیست که مدلها را نمیتوان به کارهای جدید تعمیم داد، ما هر روز شاهد انجام کارهای شگفتانگیز LLMها و SLMها هستیم، اما به این معنی است که باید در نحوه ارزیابی، امتیازدهی و ارتقای مدلها تجدید نظر کنیم.
مدل های زبانی که از معیارها بهتر عمل می کنند چقدر قابل اعتماد هستند؟
تحقیقات انجام شده توسط مایکروسافت، مؤسسه اتوماسیون CAS و دانشگاه علم و صنعت چین نشان میدهد که چگونه وقتی از مدلهای زبان مختلف پرسیده میشود، سؤالات معیار بازنویسی یا اصلاح شده است، عملکرد مدلها به طور قابلتوجهی بدتر از زمانی است که از همان سؤال معیار بدون تغییر پرسیده میشود. برای هدف تحقیق خود، همانطور که در مقاله DyVal 2 نشان داده شده است، محققان سؤالات را از معیارهایی مانند MMLU گرفتند و آنها را با بازنویسی سؤال، افزودن یک پاسخ اضافی به سؤال، بازنویسی پاسخ ها، تغییر پاسخ ها اصلاح کردند. ، یا اضافه کردن محتوای اضافی به سوال. هنگام مقایسه عملکرد مدل در مجموعه داده «وانیل» در برابر سؤالات اصلاح شده، آنها شاهد افت عملکرد هستند، به عنوان مثال. GPT-4 در سؤالات MMLU وانیلی امتیاز 84.4 و در سؤالات MMLU اصلاح شده 68.86 کسب کرد. [5].
به طور مشابه، تحقیقات گروه علوم کامپیوتر در دانشگاه آریزونا نشان می دهد که وجود دارد میزان قابل توجهی از آلودگی داده ها در مدل های زبانی [6]. این بدان معنی است که اطلاعات موجود در معیارها بخشی از داده های آموزشی مدل ها می شود و به طور موثر نتایج معیار را بی ربط می کند زیرا مدل ها بر روی اطلاعاتی که روی آنها آموزش دیده اند آزمایش می شوند.
تحقیقات اضافی از دانشگاه فودان، دانشگاه تونگجی و علیبابا نیاز به برآوردگرهای پویا خود-تکاملی را برای عوامل هوش مصنوعی برای مبارزه با مشکلات آلودگی دادهها و حفظ معیارها برجسته میکند. [7]. این معیارهای پویا به مدلها کمک میکند اطلاعاتی را در طول دورههای پیشآموزشی که بعداً روی آنها آزمایش میشوند، به خاطر نیاورند یا یاد نگیرند. اگرچه جریان مکرر معیارهای جدید می تواند هنگام مقایسه یک مدل قدیمی با یک مدل جدیدتر چالش هایی را ایجاد کند، در حالت ایده آل این معیارها مسائل آلودگی داده ها را کاهش داده و اندازه گیری میزان درک مدل از موضوعات آموزشی را آسان تر می کند.
هنگام ارزیابی توانایی یک مدل در مورد یک مشکل خاص، باید درک کنیم که مدل چقدر اطلاعات آموخته شده در طول آموزش قبلی را درک می کند و اینکه چقدر می تواند به وظایف یا مفاهیم جدید خارج از داده های آموزشی خود تعمیم دهد.
آیا مدل های زبان و عوامل هوش مصنوعی می توانند دانش را به عمل تبدیل کنند؟
از آنجایی که ما به دنبال استفاده از مدلها بهعنوان عوامل هوش مصنوعی برای انجام اقداماتی از جانب خود هستیم، خواه رزرو تعطیلات، نوشتن گزارش یا تحقیق در مورد موضوعات جدید برای ما باشد، به معیارها یا مکانیسمهای ارزیابی بیشتری نیاز خواهیم داشت. کسانی که میتوانند قابلیت اطمینان و دقت را ارزیابی کنند. این عوامل اکثر کسب و کارهایی که به دنبال استفاده از قدرت مدلهای زیربنایی هستند، نیازمند دسترسی مدل به انواع ابزارهای یکپارچه با منابع داده منحصربهفرد خود هستند و مدل را ملزم میکنند تا در مورد زمان و نحوه استفاده مؤثر از ابزارهای موجود، استدلال و برنامهریزی کند. این نوع تکالیف در بسیاری از معیارهای LLM سنتی نشان داده نمی شوند.
برای پر کردن این شکاف، بسیاری از تیمهای تحقیقاتی معیارها و چارچوبهای خود را ایجاد میکنند که عملکرد عامل را در وظایفی که شامل استفاده از ابزار و دانش فراتر از دادههای آموزشی مدل است، ارزیابی میکنند. به عنوان مثال، نویسندگان AgentVerse ارزیابی کردند که چگونه تیمهای عامل میتوانند وظایف دنیای واقعی شامل برنامهریزی رویداد، توسعه نرمافزار و مشاوره را انجام دهند. محققان مجموعه ای از 10 کار آزمایشی خود را ایجاد کردند که به صورت دستی مورد ارزیابی قرار گرفت تا مشخص شود که آیا عوامل مجموعه اقدامات صحیحی را انجام می دهند، از ابزار صحیح استفاده می کنند و به یک نتیجه دقیق می رسند. آنها دریافتند که تیمهایی از عواملی که در یک چرخه با مراحل تعریفشده برای جذب نماینده، برنامهریزی وظیفه، اجرای مستقل وظایف و ارزیابی بعدی کار میکنند، در مقایسه با عوامل مستقل به نتایج برتر میرسند. [8].
فراتر از روش های منفرد و به دنیای واقعی. چرا باید مدل های زبان (یا مدل های پایه) بیشتر از متن تسلط داشته باشند؟
به نظر من، معماریهای عامل و معیارهای نوظهور گامی عالی برای درک اینکه چگونه مدلهای زبانی در مسائل تجاریمحور عملکرد خوبی خواهند داشت، اما یک محدودیت این است که بیشتر آنها هنوز بر روی متن متمرکز هستند. همانطور که جهان و ماهیت پویای بیشتر محیطهای کاری را در نظر میگیریم، به سیستمها و مدلهای عاملی نیاز خواهیم داشت که هم عملکرد وظایف متنی و هم وظایف دیداری و شنیداری را با هم ارزیابی کنند. مجموعه داده AlgoPuzzleVQA نمونه ای از ارزیابی مدل ها بر اساس توانایی آنها در استدلال، خواندن و تفسیر بصری پازل های ریاضی و الگوریتمی است. [9].
در حالی که ممکن است کسبوکارها اهمیتی به این موضوع نداشته باشند که چگونه یک مدل میتواند یک معما را حل کند، اما هنوز گامی در مسیر درست برای درک اینکه مدلها چقدر خوب میتوانند درباره اطلاعات چندوجهی استدلال کنند، است.
نتیجه
همانطور که ما به اتخاذ الگوهای اساسی در کارهای روزمره و تلاش های حرفه ای خود ادامه می دهیم، به گزینه های ارزیابی اضافی نیاز داریم که منعکس کننده مسائل دنیای واقعی باشد. معیارهای پویا و چندوجهی یکی از اجزای کلیدی این است. با این حال، با معرفی چارچوبها و معماریهای عامل اضافی با بسیاری از عوامل هوش مصنوعی که برای حل یک مشکل همکاری میکنند، ارزیابی و مقایسه بین مدلها و چارچوبها حتی چالشبرانگیزتر میشود. معیار واقعی مدلهای زیربنایی در توانایی آنها برای شکست دادن تستهای استاندارد نیست، بلکه در توانایی آنها برای درک، تطبیق و عمل در دنیای واقعی پیچیده و اغلب غیرقابل پیشبینی است. با تغییر روش ارزیابی مدلهای زبانی، این مدلها را به چالش میکشیم تا از هوش متنی و دانشمندان معیار به متفکران کل نگر تبدیل شوند که قادر به مقابله با چالشهای چند وجهی (و چندوجهی) هستند.
به بحث یا همکاری بیشتر علاقه مندید؟ تماس گرفتن لینکدین!