این پست به شش قسمت تقسیم می شود. آنها عبارتند از: • چرا ترانسفورماتور بهتر از SEQ2SEQ است • تهیه داده ها و توکن سازی • طراحی یک مدل ترانسفورماتور • ساخت مدل ترانسفورماتور • ماسک علی و ماسک پزی کردن • آموزش و ارزیابی مدل های سنتی SEQ2SEQ با دو شبکه عصبی مکرر دارای دو محدودیت اصلی است: • پردازش متوالی از هر زمان که Elemizery Propliled Propliled Heour Transport Heour Hearer Hearer Proplied Heourse از زمان وابستگی های طولانی مدت از زمان های Hidened است. مقاله 2017 “توجه همه شما نیاز دارید” ، بر این محدودیت ها غلبه می کند.
منبع: machinelearningmastery.com
