مقایسه بین رمزگذار و رمزگشایی

نویسنده (ها): باسکه

در ابتدا منتشر شده در به سمت هوش مصنوعیبشر

این مقاله در درجه اول در مورد مزایا و مضرات آن بحث می شود مدل های بزرگ زبان بر اساس معماری رمزگذار و رمزگشایی. هر دو معماری رمزگذار و رمزگشایی بر روی مدل ترانسفورماتور ساخته شده اند. در ابتدا ، این معماری رمزگذار رمزگذار برای کارهای ترجمه طراحی شده است ، جایی که رمزگذار مسئول رمزگذاری ورودی و رمزگشایی برای رمزگشایی خروجی است. ساختار کلی در شکل 1 زیر نشان داده شده است.

شکل 1: رمزگذار و رمزگشایی در کار ترجمه. تصویر از [3]بشر

از آنجا که هر دو ماژول رمزگذار و ماژول رمزگشایی از ساختار ترانسفورماتور هستند ، نمودار ساختار مدل کلی به شرح زیر شکل 2 است.

شکل 2: چارچوب ترانسفورماتور. تصویر از [1]بشر

در حقیقت ، موفقیت معماری ترانسفورماتور در آن زمان بر تابلوهای مختلف عموم مردم حاکم بود مجموعه داده ها، علامت گذار زبان طبیعی مدل ها از LSTM دوران به دوره ترانسفورماتور. با این حال ، تعداد کمی از مقالات معماری رمزگذار و رمزگشایی را در آن زمان مطالعه می کنند. در زیر ، ما مدل های معمولی رمزگذارها و رمزگشایی ها را معرفی می کنیم.

در سال 2018 ، برت ظهور کرد و به سرعت مسلط شد NLP وظایف این سه نوآوری مهم ایجاد کرد:

مقیاس گذاری ترانسفورماتور: بزرگتر و عمیق تر می شود.
طراحی فقط رمزگذار: استفاده از رمزگذار فقط پشته.
مدل سازی زبان نقاب دار (MLM): یک کار پیشگویی به سبک Cloze.

یادداشت: BERT همچنین شامل پیش بینی جمله بعدی (NSP) بود ، اما مطالعات بعدی نشان داد که تأثیر کمتری بر عملکرد مدل دارد.

نکته قابل توجه ، برت در درجه اول در کارهای تبعیض آمیز (به عنوان مثال ، طبقه بندی) عالی بود اما در کارهای تولیدی تحت تأثیر قرار گرفت. قبل از GPT-3 ، هیچ مدلی از جمله مدل های رمزگشایی مانند GPT-1 و GPT-2 در کارهای تولیدی به عملکرد قوی نرسید.

پس از برت ، تعداد زیادی مدل “X-Bert” پدیدار شد ، اما هیچ یک از پیشرفت های قابل توجهی در نسل تا GPT-3 ایجاد نکرد. سری GPT معماری های فقط رمزگشایی را در NLP محبوب کرد و به تدریج مدلهای سبک Bert را از کانون توجه جابجا کرد. در حالی که GPT-1 و GPT-2 موفقیت محدودی داشتند ، اندازه مدل یک عامل مهم بود. GPT-3 در مقایسه با BERT در حالی که در کارهای تبعیض آمیز رقابتی باقی مانده بود ، عملکرد بحرانی را در کارهای نسل به دست آورد.

آیا مدلهایی وجود دارد که هم رمزگذار و هم رمزگشایی را ترکیب می کنند؟ پاسخ بله است-T5 (ترانسفورماتور انتقال متن به متن) از معماری رمزگذار رمزگذار استفاده می کند. این عملکرد برت در کارهای تبعیض آمیز مطابقت دارد اما ممکن است مدل های رمزگشایی فقط با اندازه مشابه در کارهای تولیدی را تحت فشار قرار دهد.

تجزیه و تحلیل معماری های مدل
اکنون ما سه نوع معماری را تجزیه و تحلیل می کنیم: فقط رمزگذار ، رمزگذار-دکوراسیون و رمزگذار فقط برای درک روابط و کارهای مناسب آنها.

شکل 3: شماتیک انواع معماری ترانسفورماتور که ما در نظر می گیریم. تصویر از [4]بشر

از شکل فوق 3 ، بدیهی است که برای ساختار رمزگذار-دکوراسیون ، قسمت رمزگذار از خود استقبال دو طرفه استفاده می کند (یعنی یک نشانه توجه را با تمام نشانه های موجود در دنباله انجام می دهد). در این میان ، مدل زبان دارای یک ساختار فقط رمزگشایی است ، که در آن فقط توجه بین نشانه فعلی و نشانه های قبل از آن رخ می دهد ، که این یک توجه یک طرفه است. پیشوند LM تا حدودی یک رویکرد هوشمندانه است. این یک دنباله را به دو بخش تقسیم می کند: یک قسمت پیشوند است و قسمت دیگر هدف است. پیشوند تحت توجه خود دو طرفه قرار می گیرد ، در حالی که قسمت هدف فقط تحت تأثیر خود قرار می گیرد. با توجه به مکانیسم توجه این سه ساختار ، شکل 4 زیر را داریم.

شکل 4: الگوهای توجه در یک رمزگذار علی ، رمزگشایی غیر مقطع و معماری رمزگذار. تصویر از [2]بشر

بنابراین چرا ساختار رمزگذار که قبلاً شکست ناپذیر بود ، به ساختار رمزگشایی فقط از دست داد؟ حتی ساختار رمزگذار رمزگذار هنوز هم نسبت به ساختار رمزگشایی فقط پایین است. من آن را از جنبه های زیر تحلیل خواهم کرد.

مشکل درجه

در اینجا ، ابتدا توضیح دهیم که رتبه یک ماتریس چیست. “رتبه یک ماتریس به تعداد بردارها در مجموعه حداکثر خطی مستقل از بردارهای ردیف یا بردارهای ستون آن اشاره دارد ،” این جواب ویکی پدیا است. نقش رتبه در محاسبه مدل چیست؟ در اینجا ، ما باید به مکانیسم محاسبه توجه اشاره کنیم. در محاسبه توجه ، هر نشانه نیاز به محاسبه وزن برای سایر نشانه ها دارد و این وزن یک ماتریس است. این ماتریس چه چیزی را نشان می دهد؟ لطفاً به دو جدول زیر نگاهی بیندازید.

جدول 1: درجه بالای وزن توجه. تصویر از نویسنده.

جدول 2: درجه پایین وزن توجه. تصویر از نویسنده.

از جداول فوق ، می توانیم مشاهده کنیم که در وزن های بالایی با توجه به وزن ، هر نشانه وزن توجه متمایز برای سایر نشانه ها دارد. در مقابل ، وزنهای توجه کم درجه منجر به وزن توجه یکسان در نشانه ها می شود. درجه بالا مطلوب است زیرا نشان می دهد که هر نشانه اطلاعات منحصر به فرد را حفظ می کند ، در حالی که ثبات با رتبه پایین ، نشانه ها را از بین می برد ، ویژگی های متمایز آنها را از بین می برد و از یادگیری ویژگی های خاص توکن جلوگیری می کند.

نتیجه گیری مهم این است که مکانیسم توجه دو طرفه در رمزگذارها تمایل به تولید ماتریس های درجه پایین دارد ، در حالی که توجه یک طرفه در رمزگشاها رتبه کامل را حفظ می کند. برای اثبات دقیق ، به مقاله مراجعه کنید “تنگنا درجه پایین در مدل های توجه چند سر”بشر مسئله اصلی یک محدودیت ذاتی توجه چند سر استاندارد است: وقتی بعد سر (D) از طول دنباله (N) کوچکتر باشد ، “تنگنای درجه پایین” رخ می دهد و قدرت بیانگر مدل را کاهش می دهد. از نظر ریاضی ، ضرب یک ماتریس N × D توسط ماتریس AD × N و به دنبال آن یک عمل SoftMax منجر به یک ماتریس درجه پایین در صورت N ≫ D می شود.

با این حال ، آیا یک رمزگذار با درجه پایین لزوماً یک رمزگذار درجه بالا را تحت فشار قرار می دهد؟ لزوماً رتبه بالا نشانگر پتانسیل بیان بیشتر است ، اما به طور مؤثر استفاده از این پتانسیل بسیار مهم است. بدون بهینه سازی مناسب ، یک رمزگذار با درجه بالا ممکن است یک رمزگذار با درجه پایین را تحت تأثیر قرار دهد.

تفاوت در کارهای مقدماتی

مدل های رمزگذار فقط مانند BERT از مدل سازی زبان نقاب دار (MLM) استفاده می کنند ، که در آن 15 ٪ از نشانه ها در یک دنباله به طور تصادفی نقاب می شوند ، و مدل این نشانه های نقاب دار را از متن پیش بینی می کند. در مقابل ، مدل های فقط رمزگشایی ، از مدل سازی زبان اتورگرایی استفاده می کنند ، پیش بینی می کنند که معکرهای بعدی با داده های قبلی. در نتیجه:

MLM درک زمینه جهانی را تشویق می کند ، و باعث می شود مدل های رمزگذار فقط در کارهای تبعیض آمیز قوی تر شوند (به عنوان مثال ، طبقه بندی).
آموزش خودکار استدلال پی در پی را تقویت می کند ، و مدل های فقط رمزگشایی را برای کارهای تولیدی مناسب تر می کند.

چرا مدل های رمزگذار فقط در کارهای تبعیض آمیز برتری دارند؟
این به این دلیل است که مهندسی سریع و یادگیری درون متنبشر با قاب بندی وظایف به عنوان پیشبرد ، مدل های فقط رمزگشایی می توانند خروجی هایی را ایجاد کنند که رفتارهای تبعیض آمیز را تقلید می کنند ، به طور موثری قابلیت های تولیدی را برای کارهای طبقه بندی مجدداً بازسازی می کنند.

مقیاس مدل

مدل های اولیه رمزگذار که فقط رمزگذار شده اند ، که با توجه به نکات قبلی متناقض به نظر می رسند. عامل اصلی در اینجا مقیاس مدل است:

در دوره برت ، مدل ها به طور معمول 300 مگابایت پوند بودند.
در مقابل ، GPT-3 به پارامترهای 175B رسید.

Google (توسعه دهندگان BERT) روی معماری های رمزگذار متمرکز شده است ، در حالی که OpenAI رمزگشایی ها را دنبال می کرد. در حالی که گوگل احتمالاً با رمزگذارهای بزرگ آزمایش کرده است ، شواهد تجربی نشان می دهد که:

رمزگذارها با مدلهای کوچک به سرعت عملکرد خوبی را به دست می آورند اما در مقیاس پذیری فلات.
رمزگشایی ها برای بهتر از رمزگذارها به مقیاس قابل توجهی نیاز دارند اما در نهایت به تعمیم عالی می رسند.

شواهد تجربی

در “چه معماری و پیش فرض کارآزمایی الگوی زبانی بهترین کار برای تعمیم صفر است؟”، نویسندگان فقط با استفاده از مدل های پارامتر 50B که بر روی نشانه های 170B انجام شده است ، فقط رمزگذار ، رمزگذار و فقط رمزگذار را مقایسه کردند. یافته های کلیدی:

فقط رمزگشایی + پیش فرض تولیدی در تعمیم صفر-شات برای کارهای تولیدی.
Encoder-Decoder + MLM + Multitask FinetUning بهترین کار را برای کارهای MLM صفر انجام می دهد اما در پاسخ به سؤالات باز تلاش می کند.

پایان

از آنچه تاکنون دیده ایم ، برتری مشخصی بین مدل های رمزگذار و مدل های رمزگشایی وجود ندارد – آنها به سادگی وظایف مختلفی را انجام می دهند. مدل های رمزگذار برای کارهای تبعیض آمیز بهتر هستند ، در حالی که مدل های رمزگشایی در کارهای تولیدی برتری دارند. اگر یک مدل رمزگشایی برای انجام وظایف تبعیض آمیز باشد ، باید دو شرط برآورده شود: (1) مدل باید در مقیاس به اندازه کافی بزرگ باشد ، در غیر این صورت قابلیت های آن به طور کامل نمی تواند فعال شود. و (2) یک فوریت به خوبی طراحی شده باید برای هدایت صریح مدل در انجام کار هدف ارائه شود.

علاوه بر این ، مدل های رمزگذار دکوراسیون وجود دارد. با توجه به برخی از آزمایشات آنلاین ، به نظر نمی رسد که مدل های رمزگذار در مقایسه با مدل های رمزگذار ، تحت تأثیر قرار نمی گیرند. با این حال ، مدل های رمزگذار رمزگذار فاقد قابلیت موازی سازی هستند و آنها را به مراتب کمتر از مدل های رمزگشایی کارآمدتر می کند. در نتیجه ، آنها تا حد زیادی در کاربردهای صنعتی به نفع خودداری کرده اند.

استنباط

منتشر شده از طریق به سمت هوش مصنوعی

منبع: https://towardsai.net/p/machine-learning/the-comparison-between-the-encoder-and-the-decoder