نویسنده(های): مکس شیپ
در ابتدا منتشر شد به سمت هوش مصنوعی.
وقتی از چند دوست شنیدم که برخی از شرکتهای فناوری هنوز پازلهایی را در فرآیند مصاحبه خود گنجاندهاند – یا حتی یک جلسه کامل 45 دقیقهای را اختصاص میدهند – از نامزدها برای حل مشکلاتی مانند زیر متعجب شدم:
دو نفر باید به بالای تپه می رفتند. فقط یک موتور سیکلت وجود دارد، اما فقط یک نفر می تواند آن را سوار کند. خوشبختانه هر دو به بالای تپه می رسند. چگونه؟
در دهه 2010، چنین سوالاتی در مصاحبه در میان شرکت های بزرگ فناوری، به ویژه مایکروسافت و گوگل، محبوب بودند. این پازل ها، که اغلب به آنها بازی فکری می گویند، برای آزمایش تفکر جانبی یک نامزد طراحی شده اند – یا “تفکر خارج از چارچوب”. این رویکرد شامل تفکر خلاق و واگرا است که مستلزم نگاه کردن به یک مشکل از دیدگاههای جدید و مفروضات چالش برانگیز است. اغلب با نیمکره راست مغز مرتبط است.
با این حال، گوگل بعداً اعتراف کرد که بازیهای فکری بیاثر بودند [2] برای استخدام، همانطور که آنها کمی پیدا کردند همبستگی بین عملکرد در این پازل ها و موفقیت شغلی. در نتیجه، گوگل – و بسیاری از شرکتهای دیگر – بازیهای فکری را از فرآیند استخدام خود کنار گذاشتند.
بیایید کنار بگذاریم که چرا برخی از شرکت ها ممکن است امروز معماها را برای ارزیابی نامزدها مرور کنند (می توانید نظرات من را در این مورد در بخش نتیجه گیری بخوانید). در عوض، بیایید روی بخش سرگرمکننده تمرکز کنیم: مدلهای پیشرفته هوش مصنوعی چگونه در سؤالات بازی فکری که نه تنها به مهارتهای استدلال قوی، بلکه به تفکر خلاق نیز نیاز دارند، عمل میکنند؟
روش شناسی
من دو مدل مرزی از OpenAI را برای این آزمایش آزمایش کردم: gpt-4o-mini و gpt-4o.
نکته جانبی: اجرای API با gpt-o1 بسیار گران بود 😂
این مدل تحت شرایط مشابه با یک کاندید انسانی در مصاحبه آزمایش شد:
- از آن خواسته شد که معما را حل کند.
- اجازه داده شد تا افکار میانی را برای نشان دادن فرآیند تفکر تولید کند.
برای جمع بندی، از دستور سیستم زیر استفاده شده است:
system_prompt = """
You are an expert in solving riddles.
You will be provided with a riddle wrapped in the tags: riddle text .Your task is to provide an answer to the riddle.
If you find it helpful, you may output your intermediate thoughts to aid in finding the answer. These should be wrapped in the tags your thinking process . However, this is optional.
You must conclude your response with the final answer wrapped in the tags your answer .
If you are unsure of the answer, respond with I have no answer .
Let’s begin solving riddles.
"""
معمای مثال:
Riddle: Jessica is telling her friends this story and asks them to guess if it's the truth or a lie:
"There was a man sitting in a house at night that had no lights on at all.
There was no lamp, no candle, and no other source of light.
Yet, he sat in the house and read his book happily."
Her friends say she's lying, but Jessica corrects them and says
she's telling the truth.
Jessica's story is true.
But how?
پیش بینی توسط مدل gpt-4o:
thinking>We need to consider all possible ways a person can read without traditional sources of light.
The key point of the riddle is "no lights on at all" which rules out any man-made lighting sources.
This leads us to think about natural ways a person could read in the absence of artificial light.
The most plausible natural source of light that would allow someone to read is sunlight or moonlight.
thinking>thinking>Since the scenario happens "at night,"
sunlight is not possible, leaving moonlight.
But even without moonlight, there is one other potential explanation:
the man could be blind and reading Braille.
This explanation fits as it doesn't depend on any light source at all.
thinking>answer>The man is blind and reading a book in Braille.answer>
بعد از اینکه مدل پاسخ داد، من به روشی برای ارزیابی صحت نتایج نیاز داشتم. مقایسه مستقیم پاسخهای پیشبینیشده با پاسخهای مرجع امکانپذیر نبود، زیرا این مدل ممکن است پاسخهای درست معنایی را با عبارتهای متفاوت تولید کند. برای رفع این مشکل از دیگری استفاده کردم LLM، به طور خاص مدل gpt-4o، به عنوان قاضی برای تأیید پیش بینی ها.
اعتبار سنج با معیارهای آرامی برای ارزیابی صحت ارائه شد. اگر پاسخ پیش بینی شده منطقی بود، حتی اگر دقیقاً با پاسخ مرجع مطابقت نداشت، باز هم نمونه را به عنوان صحیح علامت گذاری می کرد.
برای این منظور از دستور سیستم زیر استفاده شده است:
You are an expert in validating answers to riddles.You will be provided with the following:
A riddle wrapped in the tags: riddle text .
A reference answer wrapped in the tags: text .
A predicted answer wrapped in the tags: text .
Your task is to determine whether the predicted answer matches the reference answer.
Focus on whether the meaning of the predicted answer aligns with the reference answer, ignoring any typos.
The reference answer may also include an explanation, usually in a separate sentence. If the predicted answer contains reasoning that differs from the reference reasoning but the predicted answer itself is correct, you should still consider the riddle as solved correctly.
If you strongly believe the predicted answer is valid and can be treated as correct (even if it is completely different from the reference answer), you may decide that the riddle is solved correctly.
You may output intermediate thoughts to help you reach a decision. These should be wrapped in the tags .
Finally, return your verdict wrapped in the tags your verdict .
Your verdict should be either True (for matching answers) or False (if the answers do not match).
پازل مثال همراه با پیشبینی از دو مدل، و با حکم یک اعتبارسنجی:
در نهایت دقت را محاسبه کردم.
در مجموع، من حدود 15 دلار برای اجرای پیشبینیها و اعتبارسنجی هزینه کردم.
به طور خلاصه، رویکرد به شرح زیر بود:
- هر معما را به صورت جداگانه به gpt-4o-mini و gpt-4o ارائه دهید، و آنها را ترغیب کنید که قدم به قدم فکر کنند و آن را حل کنند.
- از gpt-4o به عنوان داور استفاده کنید (زیرا قوی تر از نوع کوچک است). متن معما را به همراه پاسخ صحیح و پاسخ تولید شده ارائه دهید و از آن بخواهید ارزیابی کند که آیا پاسخ تولید شده از نظر معنایی به پاسخ مرجع نزدیک است یا خیر.
- دقت را محاسبه کنید.
داده ها
برای آزمایشهایم، از مواردی که با دقت انتخاب شدهاند استفاده کردم مجموعه داده ایجاد شده توسط نویسندگان مقاله [3]. هر پازل در مجموعه داده برای ارزیابی طیف گسترده ای از مهارت های هوش انسانی، از جمله توسعه استراتژی، برنامه ریزی، تفکر بصری-فضایی، خلاقیت و حافظه طراحی شده است.
برای ساخت این مجموعه داده، نویسندگان ابتدا هزاران پازل را از منابع عمومی جمع آوری کردند. آنها سپس فیلتر کردن، کپی برداری و تصحیح دستور زبان را اعمال کردند و به دنبال آن تأیید انسانی را انجام دادند تا مطمئن شوند که پازل ها معنای اصلی خود را حفظ می کنند. هر پازل شامل یک پاسخ است و برخی از نمونه ها نیز برای توضیح راه حل استدلال ارائه می دهند. در نهایت، نویسندگان پازل ها را با دو تغییر کلیدی تقویت کردند:
- بازسازی معنایی: بیان مجدد سوال اصلی در حالی که پاسخ بدون تغییر باقی می ماند.
- بازسازی زمینه: حفظ پیشفرض عوام گمراهکننده، اما تغییر هم سؤال و هم پاسخ برای تناسب با زمینه موقعیتی جدید.
این تقویتها برای ارزیابی تواناییهای تفکر جانبی مدل به جای مهارتهای به خاطر سپردن آن بسیار مهم بودند. (همانطور که می دانیم، LLMs بر روی حجم وسیعی از دادههای اینترنتی آموزش دیدهاند، بنابراین برخی از این پازلها ممکن است در حین پیشآموزش ظاهر شده باشند.)
عملکرد روی پازلهای بازسازیشده معنایی نشان میدهد که مدل چقدر معنای پازل را درک میکند. در مقابل، عملکرد روی پازل های بازسازی شده به صورت متنی، قابلیت های استدلال مدل را آشکار می کند.
نمونه هایی از پازل اصلی، بازسازی معنایی، و بازسازی زمینه:
مجموعه داده نهایی شامل 1100 بازی فکری با کیفیت بالا است. برای جزئیات بیشتر مقاله را بررسی کنید.
نتایج
دقت کلی مدل ها در جدول زیر نشان داده شده است:
به طور کلی، نوع مینی مدل 20 درصد بدتر از نسخه اصلی عمل می کند که نشان می دهد احتمالاً بهترین انتخاب برای کارهای استدلالی نیست.
عملکرد مدل بر اساس پازل اصلی، بازسازی معنایی و بازسازی زمینه:
دقت مدل برای gpt-4o بسیار بالا است و در پازل های اصلی به 84 درصد می رسد. با این حال، در معماهای بازسازی معنایی، که در آن سؤال با استفاده از کلمات مختلف بازنویسی می شود، اما همان معنا را حفظ می کند، به طور قابل توجهی کاهش می یابد – 10٪. این ممکن است دو موضوع بالقوه را در مدل مطرح کند: (1) حساسیت به ترتیب کلمات، حتی در مدلهای پیشرفته، و (2) درجهای از تصادفی بودن در فرآیند استدلال آن.
قابل توجه تر، شکاف عملکرد حتی بزرگتر است، نزدیک به 20٪، در پازل های بازسازی زمینه. این پازل ها سناریوهای کاملاً جدیدی را ارائه می دهند که مدل را ملزم می کند به جای حفظ کردن، بر توانایی های استدلال تکیه کند.
در حالی که نتایج هنوز معقول هستند و بدون شک میتوان آنها را به روشهای مختلف بهبود بخشید (به بخش مراحل بعدی مراجعه کنید)، این مدل گاهی اوقات حتی در معماهای سادهای مانند این شکست میخورد:
مراحل بعدی
نتایجی که من به دست آوردم مطمئناً از چندین راه قابل بهبود هستند. در زیر گزینه هایی را که ارزش تلاش برای بهبود مهارت های استدلال را دارند فهرست می کنم.
مجموعه برای بهبود دقت. یک پیشرفت ساده این است که یک معما را چندین بار به صورت موازی حل کنید (مثلاً N بار) و به بیشترین پاسخ رای دهید. این تکنیک ترکیبی یک رویکرد استاندارد است و معمولاً میتواند معیارهای عملکرد را 5 تا 7 درصد افزایش دهد.
پرداختن به عملکرد در بازسازی متنی. همانطور که مشاهده شد، عملکرد در پازل های بازسازی شده به صورت متنی در مقایسه با پازل های اصلی به طور قابل توجهی کاهش می یابد. این احتمالاً به این دلیل اتفاق میافتد که مدل بسیاری از پازلهای اصلی را در طول پیشآموزش دادههای اینترنتی به خاطر سپرده است، و کمتر بر استدلال واقعی تکیه میکند. برای بهبود، ما به مدلی نیاز داریم که به طور خاص برای کارهای استدلالی بهینه شده باشد – مانند خانواده o1 یا حتی مدل های o3. با این حال، من این مسیر را به دلیل هزینه های بالا و زمان پاسخگویی طولانی مرتبط با این مدل ها کاوش نکردم. اگر کسی علاقه مند به بازتولید این آزمایش ها با مدل های قوی تر است، کد قابل تکرار در این آدرس موجود است [4].
شبیه سازی یک سناریوی مصاحبه در دنیای واقعی. همچنین آزمایش مدل در یک محیط مصاحبه شبیه سازی شده جذاب خواهد بود. در این تنظیمات:
- مدل به عنوان کاندید عمل می کند و پاسخ اولیه را به یک معما ایجاد می کند.
- مدل دیگری به عنوان مصاحبه کننده عمل می کند و پاسخ نامزد را تأیید می کند.
- اگر پاسخ نادرست باشد، مدل کاندید می تواند پاسخ خود را با استفاده از بازخورد مصاحبه کننده تجدید نظر کند.
این رویکرد شبیه یک مصاحبه واقعی است که در آن داوطلبان گام به گام فکر می کنند، ایده های خود را با مصاحبه کننده تایید می کنند و استدلال خود را در صورت نیاز تنظیم می کنند. تجزیه و تحلیل اینکه چقدر کمک از اعتبارسنجی (که پاسخ صحیح را می داند) برای هدایت مدل ژنراتور به راه حل مناسب مورد نیاز است، بسیار جذاب خواهد بود. علاوه بر این، میتوانیم بررسی کنیم که آیا این فرآیند تکراری در تعداد معقولی از مراحل همگرا میشود یا خیر.
نتیجه گیری
در این مقاله کوتاه، من قابلیتهای استدلال خانواده مدل gpt-4o را در بازیهای فکری با استفاده از مجموعه دادههای پازل با کیفیت بالا از [3]. در حالی که این مدل به طور کلی عملکرد خوبی را نشان داد و به دقت 84 درصد رسید، عملکرد آن به طور قابل توجهی کاهش یافت – به 65٪ – در پازل هایی که بعید است در اینترنت در دسترس عموم قرار گیرند و بنابراین احتمالاً بخشی از داده های آموزشی مدل نیستند.
این شکاف عملکردی فضای قابل توجهی را برای بهبود در مهارتهای استدلال این خانواده مدل برجسته میکند.
من حدس میزنم که این شکاف ممکن است توضیح دهد که چرا برخی از شرکتهای فناوری هنوز سؤالات سبک بازی فکری را در فرآیندهای مصاحبه خود لحاظ میکنند. از آنجایی که مدلها با این نوع مشکلات دست و پنجه نرم میکنند، ممکن است به کاهش تأثیر هوش مصنوعی مولد در مصاحبهها کمک کنند. گفتنی است، این کاملاً نظر شخصی من است و مبتنی بر هیچ داده واقعی نیست.
من در این مقاله عملکرد مدل o1 را مورد بحث قرار ندادم، که یک منطقه عالی برای کاوش بیشتر خواهد بود. آیا با توجه به فرآیند استدلال درونی مدل، داوطلبانی وجود دارند که مایل باشند بیش از 100 دلار برای چنین آزمایشهایی هزینه کنند و انتظار طولانی برای نتایج را تحمل کنند؟ من کنجکاو هستم که ببینم O1 چگونه عمل می کند. کد در دسترس است [4]، پس با خیال راحت آن را امتحان کنید – شاید عالی باشد.
من همچنین مجذوب ایده آزمایش یک سناریوی شبیهسازی هستم که در آن دو مدل با هم تعامل دارند: یکی پاسخها یا استدلال را تولید میکند، در حالی که دیگری تأیید میکند و بهبودهایی را پیشنهاد میکند. این تنظیم میتواند ارتباط واقعی مصاحبهگر و نامزد را تقلید کند. آیا این فرآیند تکراری می تواند نتایج را افزایش دهد؟ این یک سوال هیجان انگیز برای بررسی است.
این همه برای این مقاله است – از شما برای خواندن متشکرم! بیایید در بحث های آینده ارتباط برقرار کنیم. حتما مشترک شوید و در لینکدین با من ارتباط برقرار کنید: https://www.linkedin.com/in/maxshapp/
در قسمت بعدی می بینمت!
مراجع
[1] ادوارد دی بونو. (1970). تفکر جانبی نیویورک.
[2] تاپیک اخبار هکر
[3] جیانگ، ی، و همکاران. (2023). BRAINTEASER: پازل های تفکر جانبی برای مدل های زبان بزرگ. arXiv. https://arxiv.org/pdf/2310.05057
[4] پیوند به مخزن GitHub با نوت بوک.
منتشر شده از طریق به سمت هوش مصنوعی
منبع: https://towardsai.net/p/l/can-llms-truly-think-outside-the-box