نمایندگان LLM بر یک حقیقت تأکید می کنند: داده ها متمایز کننده واقعی هستند.


نویسنده(های): هوسم بن براییک

در ابتدا منتشر شد به سمت هوش مصنوعی.

ما الگوریتم های بهتری نداریم. ما فقط داده های بیشتری داریم – پیتر نورویگ، اثربخشی نامعقول داده ها.

این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.

عکس ویرایش شده توسط تیلور ویک در Unsplash

در ML مهندسی، کیفیت داده ها نه تنها حیاتی است – بلکه اساسی است.

از سال 2011، سخنان پیتر نورویگ بر قدرت الف تأکید می کند داده محور نزدیک شدن در یادگیری ماشینی. با این حال، این دیدگاه اغلب به حاشیه می رود و هرگز در جامعه ML اتفاق نظر در مورد آن وجود نداشت.

چرا؟ به دلیل نحوه آموزش اولیه تمرین‌کنندگان ML.

مهندسان ML و دانشمندان داده، از جمله من، با تمرکز و تمرین مدل محور با استفاده از درجه تحقیق آموزش دیده اند. مجموعه داده ها. اینها مجموعه داده ها دارای اسناد غنی از جمله اسکریپت های منبع باز هستند و با هدف آزمایش الگوریتم های ML ساخته شده اند. به طور طبیعی، اولویت ما آزمایش الگوریتم، درک رفتارهای پیچیده و پیشبرد آخرین هنر بود.

در نتیجه، جامعه ML و اکوسیستمی که اکنون داریم ساخته شد و فناوری ML دموکراتیک شده است.

آن وسواس اولیه با الگوریتم ها حیاتی بود.

اما وقتی نوبت به سیستم‌های ML در دنیای واقعی می‌رسد، کیفیت داده‌ها به عامل ایجاد یا شکست تبدیل می‌شود. داده ها باید دقیقاً منعکس کننده مشکل باشند. در غیر این صورت، حتی دقیق‌ترین مدل‌ها نیز در تولید ناکام خواهند بود.

استفاده از داده های جانبدارانه یا با کیفیت پایین؟ – مدل شما اساساً مشکل اشتباه را حل می کند.

نتیجه؟ – راه حلی که در هنگام استقرار ضعیف عمل می کند.

سخنرانی اندرو نگ در TEDx،… وبلاگ کامل را به صورت رایگان در Medium بخوانید.

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/machine-learning/llm-agents-underscore-one-truth-data-is-the-real-differentiator