نویسنده(های): شیوام داتاترای شینده
در ابتدا منتشر شد به سمت هوش مصنوعی.
این مقاله به روشهای مختلف برای انجام طبقهبندی متن با استفاده از مدلهای مبتنی بر ترانسفورماتور میپردازد و اصول و کاربردهای آنها را توضیح میدهد. ما هر دو رویکرد مبتنی بر بازنمایی و مولد را بررسی خواهیم کرد، و از انعطافپذیری و قدرت معماریهای ترانسفورماتور برای مقابله با دادههای متنی بدون ساختار استفاده میکنیم.
دستور کار
- مدل های زبان بازنمایی چیست؟
- مدل های زبان زاینده چیست؟
- روش های طبقه بندی متن
- طبقه بندی متن با استفاده از مدل های زبان بازنمایی
- طبقه بندی متن با استفاده از مدل های زبان مولد
مدل های زبان بازنمایی چیست؟
معماری اصلی ترانسفورماتور به عنوان یک مدل رمزگذار-رمزگشا در درجه اول برای کارهای ترجمه ماشینی طراحی شده است. با این حال، برای کارهای دیگری مانند طبقه بندی متن مناسب نبود.
برای رفع این محدودیت، معماری جدیدی به نام نمایش رمزگذار دوطرفه ترانسفورماتور (BERT) معرفی شد. BERT بر نمایش متن تمرکز دارد و از جزء رمزگذار ترانسفورماتور اصلی مشتق شده است. بر خلاف ترانسفورماتور اصلی، BERT شامل رمزگشا نیست.
BERT به طور خاص برای ایجاد تعبیههای متنی طراحی شده است، که بهتر از جاسازیهای سنتی تولید شده توسط مدلهایی مانند Word2Vec است. تعبیههای متنی، زمینهای را که کلمات در آن ظاهر میشوند در نظر میگیرند و در نتیجه بازنماییهای معنادارتر و همهجانبهتری از متن ایجاد میکنند.
BERT چگونه آموزش داده می شود؟
BERT از تکنیک مدلسازی زبان ماسکی در طول آموزش استفاده می کند. این شامل پوشاندن کلمات خاص در یک جمله و آموزش مدل برای پیشبینی کلمات پوشانده شده بر اساس بافت اطراف است.
به عنوان مثال، ورودی را در نظر بگیرید:
“دریاچه ____ است.”
این مدل برای پیشبینی کلماتی مانند «زیبا»، «آرام» یا «باحال» بر اساس زمینه ارائه شده توسط بقیه جمله آموزش داده شده است.
مدل های زبان مولد چیست؟
معماریهای فقط رمزگشا، مانند معماری BERT فقط رمزگذار، در کاربردهای خاص بسیار مؤثر هستند. یکی از بارزترین نمونههای معماری فقط رمزگشا، ترانسفورماتور پیشآموزشدهی (GPT) است.
مدل های زبان مولد با گرفتن متن به عنوان ورودی و پیش بینی کلمه بعدی در دنباله عمل می کنند. در حالی که هدف اصلی آموزشی آنها پیش بینی کلمه بعدی است، این عملکرد به تنهایی به طور خاص مفید نیست. با این حال، این مدل ها زمانی که برای کارهایی مانند خدمت به عنوان ربات چت تطبیق داده شوند، به طور قابل توجهی قدرتمندتر می شوند.
در اینجا نحوه عملکرد یک ربات چت ساخته شده بر روی یک مدل زبان تولیدی آورده شده است:
هنگامی که کاربر متن ورودی را ارائه می دهد، مدل زبان مولد کلمه بعدی را در دنباله پیش بینی می کند. این کلمه پیش بینی شده به ورودی اصلی کاربر اضافه می شود و یک دنباله متن جدید و توسعه یافته را تشکیل می دهد. سپس مدل از این توالی به روز شده برای پیش بینی کلمه بعدی استفاده می کند. این فرآیند به طور مکرر تکرار می شود و پاسخ ها را کلمه به کلمه ایجاد می کند.
روش های طبقه بندی متن
طبقه بندی متن با استفاده از مدل های زبان بازنمایی
استفاده از مدلهای خاص وظیفه
یک مدل خاص کار، مانند BERT، به طور مستقیم برای یک کار خاص، مانند طبقه بندی متن، آموزش داده می شود.
استفاده از مدل های جاسازی
با استفاده از مدل طبقه بندی
این رویکرد شامل تبدیل نشانههای متن ورودی به جاسازیهای متنی با استفاده از مدلهای نمایشی مانند BERT است. این تعبیهها سپس به یک مدل طبقهبندی وارد میشوند.
این فرآیند دو مرحله دارد: مدل BERT جاسازیها را ایجاد میکند، در حالی که فقط مدل طبقهبندی قابل آموزش است. خود BERT در طول تمرین ثابت می ماند.
استفاده از شباهت کسینوس
این روش مستلزم ایجاد جاسازی برای متن ورودی که باید طبقه بندی شود و برچسب های طبقه بندی می شود. در مرحله بعد، شباهت کسینوس بین جاسازی متن ورودی و هر جاسازی برچسب محاسبه می شود. سپس متن ورودی به برچسبی با بیشترین امتیاز شباهت اختصاص داده می شود.
طبقه بندی متن با استفاده از مدل های زبان مولد
طبقه بندی متن با استفاده از مدل های زبان مولد به طور قابل توجهی با مدل های زبان بازنمایی متفاوت است. مدلهای مولد، مدلهای توالی به دنبالهای هستند که بهجای تخصیص مستقیم برچسبها، خروجی را در قالب متن یا جملات تولید میکنند.
به عنوان مثال:
اگر متن ورودی است “بهترین فیلم تاریخ!”، یک مدل زبان مولد ممکن است پیش بینی کند حس فیلم مثبت است. با این حال، برخلاف مدلهای بازنمایی، مدلهای تولیدی بهطور خودکار برچسبهایی را بدون دستورالعملهای صریح ارائه نمیکنند.
اگر به سادگی وارد کنید “بهترین فیلم تاریخ!” در یک مدل مولد، ذاتاً نمیداند چه باید بکند. برای طبقه بندی احساسات ورودی، باید دستورالعمل روشنی ارائه دهید، مانند “احساس فیلم ورودی را به عنوان مثبت یا منفی طبقه بندی کنید.”
علاوه بر این، دقت طبقه بندی مدل به شدت به وضوح دستورالعمل بستگی دارد. دستورالعمل های مبهم یا نامشخص می تواند منجر به خروجی های نادرست یا نامربوط شود.
بررسی کنید که چگونه اعلانهای مختلف منجر به خروجیهای طبقهبندی متفاوت از مدل زبان مولد در نمودار زیر میشوند.
Outro
خیلی ممنون که خواندید. اگر این مقاله را دوست داشتید، فراموش نکنید که نماد کف زدن را فشار دهید. من را دنبال کنید متوسط و لینکدین برای مقالات بیشتر از این دست
آیا برای انتخاب مطلب بعدی مشکل دارید؟ نگران نباش من شما را تحت پوشش قرار داده ام.
از کلمات تا بردارها: کاوش در جاسازی متن
این مقاله شما را از طریق تکنیک های مختلف برای تبدیل متن به فرمت هایی که ماشین ها می توانند …
pub.towardsai.net
و بیشتر…
فراتر از برچسب ها: جادوی رمزگذارهای خودکار در یادگیری بدون نظارت
در دنیایی که داده های برچسب دار اغلب کمیاب هستند، رمزگذارهای خودکار راه حلی قدرتمند برای استخراج بینش از…
pub.towardsai.net
روز خوبی داشته باشید!
مراجع
مدل های زبان بزرگ عملی
هوش مصنوعی تنها در چند سال گذشته قابلیتهای زبانی شگفتانگیزی را به دست آورده است. با پیشرفت های سریع در عمق…
Learning.oreilly.com
منتشر شده از طریق به سمت هوش مصنوعی