نویسنده (ها): جین
در ابتدا منتشر شده در به سمت هوش مصنوعیبشر
در وبلاگ قبلی این مجموعه ، ما ایده انقلابی اولیه شبکه های عصبی مکرر (RNN) را برای مدل سازی دنباله مورد بررسی قرار دادیم. ما در مورد شهود اصلی آنها ، مزایای ارائه شده و محدودیت های اصلی ، به ویژه چالش های حفظ جریان شیب در سکانس های طولانی که اغلب در کارهای مدل سازی توالی مورد نیاز است ، بحث کردیم.
در این مقاله ، ما توجه خود را به ایده های ساده و در عین حال قدرتمند که ترانسفورماتورها را منحصر به فرد و بسیار مقیاس پذیر می کند ، تغییر می دهیم.

ما در مورد ایده a بحث کردیم “خلاصه ذهنی” این امر زمینه کلمات قبلی را در یک جمله پیگیری می کند. با این حال ، چشمان انسان آنها می توانند کاری بیش از فقط حفظ چنین خلاصه ای انجام دهند ، آنها می توانند به راحتی چندین کلمه قبلی را اسکن کنید و به طور مستقیم استنباط می شود که کدام یک برای درک کلمه فعلی مهم هستند. ما قصد داریم در مورد رویکرد بعدی با الهام از این ایده بحث کنیم.
خود توجه
این یک تکنیک بسیار قدرتمند برای شناسایی ارتباط یک نشانه با توجه به همه نشانه های دیگر است. این امکان را به مدل می دهد تا ضمن حفظ سادگی و کارآیی مدل ، روابط پیچیده ای بین نشانه های مختلف را بیاموزد.

سناریو (الف):
ماوس برای لحظه ای یخ زد ، سپس با وحشت در کف زمین پیچید ، بدن ریز و درشت آن لرزید که گربه به سمت آن می چرخید. موش که از حرکت ناگهانی و خطر احساس خطرناک وحشتناک بود ، به طرز وحشیانه ای به سر می برد ، ناامید می شود تا از حضور دلپذیر درنده فرار کند.
چگونه می دانید “این” به چه چیزی اشاره دارد؟ مغز شما با نگاهی به متن ارائه شده توسط کلمه “ترسیده” ، فوراً “آن” را به “ماوس” متصل می کند.
به جای استفاده از یک بازنمایی بردار واحد برای هر نشانه ، ما سه بردار را برای نشانه های منفرد با اهداف مختلف جدا می کنیم (q ، k ، v).
- پرس و جو (Q): من به دنبال چه چیزی هستم؟
وکتور پرس و جو “این” می گوید ، “من باید بدانم که به چه کسی مراجعه می کنم.” - کلید (k): چه چیزی می توانم ارائه دهم؟
بردارهای کلیدی “ماوس” می گوید: “من یک اسم ، یک حیوان ، یک موضوع بالقوه ترس هستم.” - مقدار (v): پیشنهاد واقعی.
بردار ارزش کلمه “ماوس” حاوی معنای معنایی غنی آن است.

محصول DOT شباهت بین دو بردار را اندازه گیری می کند. در زمینه توجه ، محصول نقطه بین بردار پرس و جو و بردار کلیدی نشان دهنده این است تطابق بین الزام (پرس و جو) و ارائه دهنده (کلید) از دیگر نشانه ها. برای جلوگیری از مقادیر بیش از حد بزرگ با افزایش ابعاد این بردارها (DK) ، محصول DOT توسط DK مقیاس می شود. نمرات مقیاس یافته سپس از طریق یک لایه Softmax منتقل می شوند که آنها را به وزنهای عادی تبدیل می کند. سرانجام ، از این وزنه ها برای محاسبه میانگین وزنی استفاده می شود پیشنهاد واقعی (ارزش) نشانه ها ، تولید بعدی را برای نشانه تولید می کند.
در حال تکامل ویژگی ها در لایه ها
نمرات توجه که توسط یادگیری Q ، K و V در یک ترانسفورماتور انواع مختلفی از ویژگی هایی را که مدل در طول آموزش آموخته است منعکس می کند ، و با عبور اطلاعات از چندین لایه ، غنی تر و انتزاعی تر می شوند.
در لایه های قبلی، توجه ممکن است جذب شود الگوهای سطح پایین مانند روابط نحوی یا وابستگی های موقعیتی ، در حالی که لایه های عمیق تر به تدریج روی بیشتر تمرکز کنید پیچیده ساختارهای معنایی ، درک متنی و بازنمایی های خاص کار. در اصل ، پیشرفت توجه در بین لایه ها به مدل اجازه می دهد تا درک خود را از توالی های ورودی اصلاح کند و از آن حرکت کند ارتباطات سطح سطح به الگوهای سطح بالاتر و معنی دار که به پیش بینی های بهتر کمک می کند.
تجسم توجه به خود
ما استفاده کردیم کتابخانه Bertviz برای تجزیه و تحلیل این جمله. ما انتخاب کردیم برخاستن رمزگذار برای نشانه گذاری و محاسبه تعبیه های متنی از نشانه های این جملات. ما نمرات توجه را در لایه های مختلف و چندین سر مدل ترانسفورماتور تجسم کردیم.
- لایه های قبلی
شکل 2[A] – رابطه موضوعی نمایش داده شده با ارتباط قوی بین “گربه“(موضوع) و “تعقیب” (فعل).
شکل 2[B] – رابطه شیء-کلان با ارتباط بین “ماوس” (شی) و “تعقیب” (فعل) به نمایش گذاشته می شود.
این ویژگی ها روابط سطح پایین هستند که در لایه 0 در سرهای مختلف توجه پیدا کردیم. - لایه های عمیق تر
شکل 2[C] – درک گفتمان از چه کسی ترسیده است؟
شکل 2[D] – وضوح اصلی برای یافتن موضوع “IT” به آن اشاره دارد.
این ویژگی ها پیچیده هستند و نیاز به درک عمیق دارند و به این ترتیب در لایه های عمیق تر 9 و 10 یافت می شوند.


سناریوی جایگزین (ب):
موش در حالی که گربه پس از آن تعقیب می کرد ، نه از گرسنگی بلکه ترس ، دم پف کرده و حرکات تند و تیز آن که خیانت به غریزه مبهوت آن را خیانت می کند ، به طرز وحشتناکی در کف زمین فرو رفت.
در سناریو A ، گربه ماوس وحشت زده ای را دید و شروع به تعقیب آن کرد ، در حالی که در سناریو B ، خود گربه وحشت کرد و شروع به تعقیب موش کرد.
شکل 2[C] وت شکل 2[D] این ابهام را به زیبایی در نمرات توجه ضبط می کند ، زیرا می توانید ارتباطات دوگانه بین “ترسیده” ، “آن” با “موش” و “گربه” را مشاهده کنید.

ترانسفورماتور
معماری ترانسفورماتور با معرفی یک ساختار ساخته شده ، مدل سازی توالی را متحول کرد کاملاً مورد توجه مکانیسم ها ، دور شدن از استفاده سنتی مکرر یا شبکه های عصبی حلقویبشر به جای پردازش داده های دنباله یک مرحله یک بار ، ترانسفورماتور هر نشانه ای را قادر می سازد که مستقیماً از طریق خودآگاهی به همه دیگران در ورودی شرکت کند.

اجزای کلیدی
- لایه تعبیه شده ورودی: نشانه های ورودی را به بازنمایی بردار با ابعاد بالا تبدیل می کند که اطلاعات معنایی را ضبط می کنند.
- رمزگذاری موضعی: اطلاعات مبتنی بر موقعیت را به تعبیه های توکن اضافه می کند در حین آموزش به صورت مبهم ، ترتیب دنباله را حفظ کنیدبشر این نتیجه از بین بردن اتصال مکرر در مراحل زمانی است.
- بلوک رمزگذار:
توجه خود چند سر: هر نشانه به همه دیگران می پردازد و روابط متنی را در دنباله ورودی ضبط می کند. این کار به طور همزمان توسط چندین سر انجام می شود که هرکدام ماتریس Q ، K و V خود را دارند.
شبکه تغذیه رو به جلو (لایه MLP): یک شبکه متراکم از موقعیت ، بازنمایی هر نشانه را پس از توجه اصلاح می کند.
عادی سازی لایه و اتصالات باقیمانده: تثبیت آموزش ، جریان شیب مؤثر را فعال کنید، و بهبود ثبات عددی. این شبیه به یک دانش آموز است که به منظور یادآوری مفاهیم تجدید نظر می کند.

- بلوک رمزگشایی:
خود ماسک شده خود را با توجه به چند سر ماسک: از حضور در نشانه های آینده در طول نسل برای مدل سازی خودکار جلوگیری می کند.
توجه رمزگذار (صلیب): به رمزگذار اجازه می دهد تا هنگام تولید خروجی روی بازنمایی های ورودی رمزگذاری شده تمرکز کند.
از روی خوراک : همانطور که در رمزگذار ، بازنمودهای سطح توکن را اصلاح می کند.
عادی سازی لایه و اتصالات باقیمانده: همانطور که در بالا ، برای تثبیت و همگرایی. - لایه خطی خروجی + SoftMax: تولید می کند توزیع احتمال از نشانه بعدی
آیا ترانسفورماتورها اولین کسی بودند که توجه را به خود جلب کردند؟
نه ، این اولین کسی بود که صرفاً به توجه به خود متکی بود و بدون هیچ گونه اتصالات مکرر در میان زمان (T) برای کار ترجمه دستگاه.

- مکانیسم توجه اصلی توسط بهدانائو و همکاران. در سال 2014 به رمزگذار رمزگذار را بهبود بخشید رفیق مدل برای کارهایی مانند ترجمه ماشین ، مدل ها را قادر می سازد تا روی قسمت های مربوط به دنباله ورودی تمرکز کنند.
- بیشتر به عنوان یک در نظر گرفته می شد تکنیک پیشرفت برای رفیق معماری های مبتنی بر ، که به مکرر و لایه های حلقوی برای یادگیری روابط بین نشانه ها.
- معماری ترانسفورماتور (معرفی شده در “توجه همه شما نیاز دارید” ، واسوانی و همکاران ، 2017) اولین الگویی بود که به طور کامل جایگزین عود و حلقوی با توجه به طور خاص ، توجه بود.
- گفته می شود ، حذف اتصالات مکرر بدون عواقب نیست. بحث در مورد اینکه آیا عدم عود مجدد توانایی استدلال ترانسفورماتورها را محدود می کند ، بحث و گفتگوهای مداوم صورت گرفته است. یک مقاله اخیر در مدل استدلال سلسله مراتبی، به عنوان مثال ، پیشنهادات بازگرداندن اتصالات مکرر با الهام از مغز انسان و به عملکرد استدلال قوی با پارامترهای قابل توجهی کمتر ((27 متر).
هدف آموزش

برای آموزش معماری ترانسفورماتور ، ما به یک کار نیاز داریم که بتواند دانش جهان را در آن القا کند. یک کار گسترده شناخته شده این است پیش بینی توکن بعدی کار ، که در آن شما مدل را برای پیش بینی کلمه بعدی آموزش می دهید توزیع احتمال و سپس آن را با توزیع احتمال کلمه اصلی اندازه گیری شده با استفاده از صلیب آنتروپی تابع ضرربشر
این از دست دادن برای انتشار شیب در سراسر لایه ها استفاده می شود و وزن ها را به همان روشی که نحوه آموزش یک شبکه عصبی استاندارد را تنظیم می کنید ، تنظیم می کند ، اگرچه این آموزش پیچیده تر از آن است رفیقبشر

آنچه به خصوص جذاب است این است که چگونه LLM می تواند هزاران جمله منطقی را فقط از یک فوریت واحد ایجاد کند ، و آنها را به طور همزمان تولید می کند ، اما هنوز هم تسلط ، انسجام و قوام منطقی را حفظ می کند. در نگاه اول ، به نظر می رسد این امر به برنامه ریزی صریح از قبل نیاز دارد.
در حقیقت ، فراتر از پیش بینی کلمه بعدی ، یک هدف پیش از پیشگویی نیز وجود دارد که اخیراً توجه زیادی را برای کارهای ساخت یافته به خود جلب کرده است. ما این را در وبلاگ های آینده کشف خواهیم کرد.
چرا ترانسفورماتورها موفق شدند
- بدون مشکل تنگنا: مکانیسم توجه با اجازه دادن به مدل برای پیگیری مستقیم وابستگی های مختلف ، بار “خلاصه ذهنی” را کاهش می دهد. علاوه بر این ، شیب می تواند مستقیماً به نشانه های مربوطه بدون عبور از نشانه های غیر ضروری در وسط جریان یابد. این مشکلات وابستگی دوربرد را حل می کند.
- آموزش موازی: با استفاده از فقط توجه ، وابستگی خطی را حذف کرد. پردازش نشانه نهم نیازی به خروجی نشانه (N-1) ندارد. این امر باعث می شود که آموزش به مراتب مقیاس پذیر تر و موازی تر شود ، زیرا محاسبات می توانند به صورت کارآمد به عنوان عملیات ماتریس در GPU ها بیان شوند.
- یادگیری انتقال: خاصیت حفظ دانش دامنه پس از پیش بینی در کار پیش بینی کلمه بعدی به ما امکان می دهد تا با تعداد کمی از نمونه ها روی کار پایین دست تنظیم کنیم.
- مقیاس پذیری: آنچه ترانسفورماتورهای متمایز عامل مقیاس پذیری است ، جایی که می توانید تعداد پارامترها را افزایش دهید تا افزایش افزایشی در عملکرد داشته باشید.
چالش های مداوم

- استنتاج متوالی: حتی هنگامی که می توانید مدل را به صورت مبهم بر روی GPU آموزش دهید ، هنوز هم در زمان استنتاج وابستگی خطی وجود دارد ، برای محاسبه نشانه نهم ، به خروجی توکن (N-1) نیاز دارید. این محدودیت باعث می شود استنتاج کند شود.
- تجمع خطا: این ناشی از این واقعیت است که LLMS نمی تواند پیگیری کند. پس از تولید یک نشانه ، قابل تجدید نظر یا جایگزینی نیست ، به این معنی که هر اشتباهی به جلو پخش می شود. در نتیجه ، حاشیه خطا بسیار باریک است و نادرستی در سطح توکن می تواند در کل دنباله پرهزینه باشد.
- تنوع محدود: به طور پیش فرض ، متن تولید شده با رمزگشایی حریص تعیین می شود ، که خروجی های ثابت و متنوع کمتری تولید می کند. ما برای تنظیم توزیع احتمال نشانه های خروجی ، به نمونه گیری دما نیاز داریم ، که مشکل تنوع را حل می کند اما فقط تا حدودی.
منابع:
- توجه همه شما نیاز دارید ، https://arxiv.org/abs/1706.03762
- ترجمه دستگاه عصبی با یادگیری مشترک برای تراز کردن و ترجمه https://arxiv.org/abs/1409.0473
- ترانسفورماتور مصور https://jalammar.github.io/illustrated-transformer/
- استحکامات https://www.youtube.com/watch؟v=zxqytk8quyy&t=1550s
- 3blue1brown https://www.youtube.com/watch؟v=emlx5ffnoyc
- برتویز ، https://github.com/jessevig/bertviz
- مدل استدلال سلسله مراتبی https://arxiv.org/abs/2506.21734
منتشر شده از طریق به سمت هوش مصنوعی