کاوش گام به گام مکانیسم های توجه ترانسفورماتور


نویسنده(های): شنگانگ لی

در ابتدا منتشر شد به سمت هوش مصنوعی.

بررسی عملی مدل‌های ترانسفورماتور آموزشی با بینش در رمزگذاری موقعیت و نقش آن در دینامیک توجه

این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.

عکس ابییو زهی در Unsplash

اگر در حال غواصی در هوش مصنوعی هستید و می خواهید سس مخفی پشت مدل های زبان مدرن مانند ChatGPT یا BERT را درک کنید، باید با Transformers و مکانیسم توجه آنها که بازی را تغییر می دهد آشنا شوید. این مفاهیم پایه و اساس پیشرفته هستند NLPو هنگامی که آنها را درک کردید، خواهید دید که چرا آنها اینقدر قدرتمند و همه کاره هستند.

تصور کنید سعی می‌کنید کتابی را بخوانید، نه خط به خط، بلکه با ورق زدن سریع به هر صفحه‌ای که می‌خواهید و ارتباط بین بخش‌های داستان را پیدا کنید. این کاری است که Transformers در آن انجام می دهد NLP. آن‌ها روش‌های قدیمی خواندن کلمه به کلمه، مانند RNN یا LSTM را کنار گذاشتند، و در عوض تکه‌های کامل داده – چه یک جمله، یک پاراگراف یا یک دنباله کامل – را به یکباره دریافت کردند. این به آنها سرعت فوق العاده ای در تمرین می دهد و آنها را در تشخیص الگوها در کل متن عالی می کند.

در قلب این جادو چیزی به نام مکانیسم توجه وجود دارد. مثل داشتن نورافکنی است که روی مهمترین کلمات یک جمله تمرکز می کند و در عین حال بقیه را زیر نظر دارد.

ما همه چیز را از بین می بریم… وبلاگ کامل را به صورت رایگان در Medium بخوانید.

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/machine-learning/step-by-step-exploration-of-transformer-attention-mechanisms-2