
آخرین به روز شده در 4 سپتامبر 2025 توسط تیم تحریریه
نویسنده (ها): کاترین مونرو
در ابتدا منتشر شده در به سمت هوش مصنوعیبشر
مشاوره بتونی برای تیم هایی که ارزیابی های دارای LLM را می سازند
آخرین پست من همه چیز در مورد مشکلات مفهومی در استفاده از آن بود مدل های بزرگ زبان برای قضاوت در مورد دیگر LLMSبشر
در این مقاله به بحث در مورد چالش های عملی استفاده از مدلهای بزرگ زبان (LLM) به عنوان قاضی در ارزیابی ها ، موضوعاتی مانند عدم تعیین در هر دو LLM که مورد ارزیابی قرار می گیرند و خود ارزیاب ها ، باعث خطاها و تعصبات ذاتی در LLM ها می شود. این امر بر اهمیت نظارت انسان ، پیچیدگی ارزیابی دقیق خروجی های LLM و نیاز به معیارهای ارزیابی جامع برای اطمینان از ارزیابی های قابل اعتماد ضمن هشدار در برابر ارتباط بیش از حد در ارزیابی های خودکار تأکید دارد.
وبلاگ کامل را به صورت رایگان در رسانه بخوانیدبشر
منتشر شده از طریق به سمت هوش مصنوعی