نقشه مدل AI تولیدی


نویسنده (ها): ayo akinkugbe

در ابتدا منتشر شده در به سمت هوش مصنوعیبشر

عکس توسط جکسون سیممر در بی تظاهر کردن

مقدمه

با تجاری سازی مدل GPT در سال 2022 ، هوش مصنوعی (هوش مصنوعی) محبوب شد. هر چند مدل های بزرگ زبان – دسته مدلهای تولیدی GPT متعلق به یک زیر مجموعه از خانواده مدلهای تولیدی است. هدف از این مقاله ، ترسیم انواع مختلف مدل های تولیدی و ترسیم تفاوت های آنها و استفاده از موارد است.

یک مدل تولیدی ، یک نوع از مدل های هوش مصنوعی ، یک سیستم هوشمند مصنوعی است که از نمونه هایی از داده ها یاد می گیرد (به عنوان مثال – مانند بسیاری از تصاویر یا جملات) و سپس نمونه های جدید و مشابهی را ایجاد می کند. این مانند نشان دادن یک ربات هزاران عکس گربه است ، و سپس از آن می خواهیم که یک عکس گربه جدید و منحصر به فرد را به خودی خود بکشد. مدل های تولیدی می توانند به دو دسته – مدل های چگالی صریح و مدل های چگالی ضمنی مشخص شوند.

تصویر توسط نویسنده

مدل چگالی صریح

مدل های چگالی صریح مدلهایی هستند که صریحاً نمایانگر و محاسبه می کنند توزیع احتمال پ(x) برای داده ها. در مورد مدل های تولیدی ، آنها دقیقاً می دانند که هر قطعه از داده های تولید شده چقدر محتمل یا محتمل است.

به عنوان مثال ، تصور کنید که یک کتاب دستور العمل دارید که در آن ، برای هر ترکیب مواد تشکیل دهنده ، دقیقاً می دانید که این دستور العمل ایجاد شده چند بار انتخاب می شود. شما نه تنها دستور العمل های جدید را تهیه می کنید (یعنی داده ها را تولید می کنید) بلکه می دانید که هر یک چقدر احتمال دارد (یعنی چگالی مدل). شهود مدلهای تولیدی چگالی صریح فقط مربوط به تولید چیزها نیست ، بلکه دانستن اینکه هر چیز با توجه به آنچه از داده ها آموخته شده است چقدر محتمل است.

هدف از چنین مدل مدل سازی یا تقریبی آن است توزیع احتمال بعد از ظهر(x) داده ها xبشر به طور کلی این نوع مدل ها با به حداکثر رساندن احتمال داده ها آموزش می یابند

کجا:

  • θ پارامترهای مدل هستند
  • شیطانیک نقطه داده است
  • بعد از ظهر(x؛ θ) یک تابع چگالی است (که در واقع می تواند محاسبه شود.)

مدل های تولیدی چگالی صریح را می توان بیشتر به آن تقسیم کرد تراکم قابل جابجایی وت تراکم تقریبی

تصویر توسط نویسنده

مدل های چگالی قابل ردیابی

مدل های چگالی تراکم مدل هایی هستند که ریاضی به اندازه کافی آسان (سریع و دقیق) برای محاسبه احتمال دقیقاً برای هر نمونه تولید شده است. به عنوان مثال ، با توجه به برخی از داده ها ، می توانید آن را به یک فرمول وصل کنید و فوراً احتمال آن را در زیر مدل بدون ترفند و میانبر دریافت کنید. محاسبات کارآمد هستند و هیچ تقریب یا حدس در آن وجود ندارد.

نمونه های محبوب مدل های تراکم قابل تراکتور شامل موارد زیر است:

  • مدلهای خودجوش (مانند GPT ، Pixelcnn): این مدل ها پیش بینی های پیچیده را در مراحل کوچکتر و قابل کنترل می شکنند. برای یک جمله ، آنها با توجه به موارد قبلی ، شانس هر کلمه را محاسبه می کنند و آنها را با هم ضرب می کنند.
  • عادی سازی مدل های جریان: این مدل ها داده ها را به روش برگشت پذیر تبدیل می کنند ، تا احتمال جدید را دقیقاً محاسبه کنند (با استفاده از فرمول تغییر متغیرها از ریاضی).
  • مدل های مخلوط بیوه یا گاوسی: این مدل ها یک فرمول ساده برای محاسبه احتمال ارائه می دهند.

تراکم تقریبی

این مدل ها محاسبه دقیق نمونه های تولید شده را سخت یا تقریبا غیرممکن می دانند و به جای آن سعی می کنند تخمین بزنند. این مدل ها به جای ارائه پاسخ دقیق ، با استفاده از تکنیک های هوشمندانه مانند نمونه گیری ، استنتاج متغیر یا بهینه سازی ، پاسخ نزدیک به اندازه را ارائه می دهند. این تقلب در راه یک برآورد احتمال مفید است ، اما ممکن است 100 ٪ دقیق نباشد.

نمونه های محبوب مدل های تراکم تقریبی عبارتند از:

  • Autoencoders متنوع (VAES): آنها نمی توانند احتمال واقعی را برای هر نمونه دقیقاً محاسبه کنند ، بنابراین از “شواهد پایین تر” (ELBO) استفاده می کنند که یک حدس ایمن و نزدیک است که به اندازه کافی برای آموزش و مقایسه نمونه ها مناسب است.
  • مدل های مبتنی بر انرژی: اغلب نمی توانند احتمالات خود را دقیقاً عادی کنند ، بنابراین از ترفندهای نمونه گیری یا تقریب استفاده می کنند.
  • مدل های انتشار: مدل های انتشار ، تولید داده را از سر و صدا و نویز شروع می کنند. حتی اگر مدل های انتشار سنتی ضمنی باشند ، بسیاری از انواع جدید مدل های انتشار (مانند مدل های احتمالی انتشار Denoising (DDPM) ) احتمال واقعی را تقریبی کنید زیرا پیگیری چگونگی تغییر سر و صدا در بسیاری از مراحل برای محاسبات دقیق بسیار پیچیده است.

مدل چگالی ضمنی

مدلهای چگالی ضمنی مدلهایی هستند که بدون محاسبه احتمال دقیق هر نمونه قادر به تولید نمونه های واقع بینانه از توزیع داده ها هستند. این مدل ها در ساخت چیزهای واقع بینانه عالی هستند ، اما آنها “احتمال” دقیق هر چیزی را که ایجاد می کنند نمی دانند. آنها می توانند تصاویر یا متن جدید شگفت انگیز بسازند ، اما اگر می پرسید “این عکس چقدر احتمال دارد؟” آنها فقط کوچک می شوند – آنها این شماره را ندارند. با توجه به توزیع داده های آموخته شده ، مدلهای تولیدی چگالی ضمنی اندازه گیری عددی را در مورد میزان نمونه خاص یا واقع بینانه ارائه نمی دهند.

این مانند یک سرآشپز بسیار خلاق است که غذاهای جدید را امتحان می کند و فقط از بازخورد طعم دهنده (“Yum!” یا “Yuck!” یاد می گیرد) ، اما هرگز نمی نویسد یا حتی محاسبه می کند که هر چند بار دستور العمل ساخته می شود. سرآشپز فقط می خواهد ظروف واقعی طعم دهند. شهود مدلهای تولیدی چگالی ضمنی بر تولید نمونه های واقع گرایانه اما نه بر اندازه گیری احتمال برای هر آفرینش تمرکز دارد.

هدف در اینجا تولید نمونه های واقع بینانه از توزیع داده ها ، بدون محاسبه احتمال دقیق هر نقطه است. معمولاً این مدلها به گونه ای آموزش دیده می شوند که داده های تولید شده X برخی از تست ها یا متریک را برای فکر کردن واقعی “فریب دهند”. هدف آموزش چنین مدلی (GANS – شبکه مخالف تولیدی در این حالت) به نظر می رسد

مدل های تولیدی چگالی ضمنی می توانند بیشتر شکسته شوند شبکه های مخالف تولید کننده و مدل های تولیدی مبتنی بر امتیاز

مدل های چگالی ضمنی بدون محاسبه احتمال دقیق هر نمونه ، نمونه های واقع بینانه از توزیع داده ها ایجاد می کنند.

تصویر توسط نویسنده

شبکه های مخالف تولید کننده (GANS)

GAN ها نوع جالبی از مدل های تولیدی با تعداد زیادی جوانب مثبت و منفی هستند و بخش در این پست آنها را عدالت نمی کند. با این حال ، شهود اساسی دو شبکه “رقابت” است: یک ژنراتور داده های جعلی را ایجاد می کند و یک تبعیض آمیز سعی می کند از جعلی واقعی بگوید. ژنراتور هرگز به صراحت احتمال یک نمونه را محاسبه نمی کند – فقط می آموزد نمونه هایی را تهیه کنید که تبعیض ساز را فریب دهند. انواع مختلفی از GAN ها وجود دارد که هرکدام مشکلات مختلفی را در این نوع مدل ها به وجود می آورند. این انواع شامل:

  • GAN های مشروط – بر خلاف GAN های وانیلی که فقط نمونه های تصادفی تولید می کنند ، GAN های شرطی امکان کنترل آنچه را فراهم می کنند گان با تغذیه در یک برچسب یا برخی از داده های اضافی – “شرایط”) تولید می شود. هم ژنراتور و هم تبعیض آمیز ورودی اضافی دریافت می کنند: یک برچسب ، یک کلاس یا برخی از اطلاعات جانبی. آنها مشکل نسل هدفمند را حل می کنند ، و این امکان را برای تولید تصاویر یک کلاس خاص فراهم می کند. به عنوان مثال “تصویری از سگ تولید کنید” در مقابل “تصویری از یک گربه تولید کنید.”
  • چرخه – Cyclegan یاد می گیرد که بدون نیاز به نمونه های زوج ، تصاویر را از دامنه A به دامنه B تبدیل کند. به عنوان مثال: اسب ها به گورخر (برعکس) ، تابستان تا زمستان (برعکس). از دو ژنراتور استفاده می کند (بوهاشرح وت شرحبوها) و از دست دادن قوام چرخه – اگر یک → B را ترجمه کنید ، B → A ، باید تصویر اصلی را پس بگیرید. این مسئله مشکل انتقال دامنه بدون نظارت را حل می کند که در صورت عدم دسترسی به داده های زوج مستقیم مفید است (برای مثال – عکس هایی از اسب همان اسب و یک گورخر). غالباً در انتقال سبک (عکس به نقاشی ، تابستان تا زمستان) و افزایش داده ها برای دامنه هایی که نمونه های زوج گران یا غیرممکن هستند استفاده می شود.
  • StyleGan – StyleGan یک معماری ژنراتور مبتنی بر سبک را معرفی می کند و به کاربران اجازه می دهد جزئیات سطح بالا و سطح پایین را کنترل کنند (به عنوان مثال در مقابل چهره ها در چهره). این “سبک” را در لایه های مختلف ژنراتور تزریق می کند ، و این امکان را می دهد تا دستکاری صاف از ویژگی های تصویر امکان ایجاد تصویر بیشتر از نور را فراهم کند
  • بیگگان – Biggan با استفاده از شبکه های بسیار بزرگتر و با کیفیت بالا و با کیفیت بالا طراحی شده است مجموعه داده هابشر این فیلترها ، مدل های عمیق تر و ترفندهایی را برای آموزش پایدار در مقیاس اعمال می کند. این مشکل کیفیت و تنوع نمونه تولید شده را در مقیاس حل می کند و مرزهایی را برای چگونگی بزرگ/متنوع فشار می دهد گانتصویر تولید شده می تواند ضمن حفظ واقع گرایی باشد.

در شبکه های مخالف مولد ، دو شبکه با هم رقابت می کنند – یک ژنراتور داده های جعلی را ایجاد می کند و یک تبعیض آمیز سعی می کند از جعلی واقعی بگوید.

مدل های تولیدی مبتنی بر نمره

مدل های تولیدی مبتنی بر نمره از سر و صدای تصادفی شروع می شوند و به طور مکرر دنویز ، هدایت شده توسط یک فرآیند آموخته شده (عملکرد نمره). عملکرد نمره به عنوان قطب نما از طریق فرآیند تولیدی به سمت یک نمونه تصویر/داده واقعی و واقع بینانه عمل می کند. از نظر ریاضی ، نمره شیب چگالی قابلیت ورود به سیستم است-به مناطق با قابلیت بالاتر داده ها اشاره می کند. این مهم است که از آن مدل های مبتنی بر نمره استفاده کنیم که می دانند کدام یک جهت برای احتمال بالاتر رفتن ، اما نه احتمال واقعی در هر نقطه – از این رو آنها مدل های چگالی ضمنی هستند.

اغلب ، نمونه برداری با مدل های مبتنی بر نمره از دینامیک لانژوین استفاده می کند. شما صعود شیب مرحله به علاوه کمی تصادفی (برای کمک به کاوش در فضا و جلوگیری از گیر کردن). عملکرد نمره شیب ورود به سیستم استx ورود به سیستم پ(x). پیروی از شیب احتمال ایجاد داده های تولید شده را افزایش می دهد x یک مثال واقعی است

کجا ϵ اندازه مرحله است ، و ξtنویز تصادفی است

این مهم است که از آن مدل های مبتنی بر نمره استفاده کنیم که می دانند کدام یک جهت برای احتمال بالاتر رفتن ، اما نه احتمال واقعی در هر نقطه – از این رو آنها مدل های چگالی ضمنی هستند.

پایان

مدل های صریح مانند عادی سازی جریان ، مدل های اتورسگر و VAE ها هنگام اندازه گیری احتمال یا احتمال داده ها مهم هستند. در مقابل ، مدل های ضمنی مانند GANS ، در حالی که قادر به تولید تصاویر بسیار واقع بینانه هستند ، با چالش هایی مانند آموزش بی ثباتی و فروپاشی حالت روبرو می شوند و پذیرش گسترده تر آنها را محدود می کنند. Chatgpt موفقیت مدل های صریح را نشان می دهد. به عنوان یک ترانسفورماتور خودکار ، هر کلمه را بر اساس توزیع احتمال به خوبی تعریف شده بر روی کلمات بعدی ممکن پیش بینی می کند ، و این امکان را به شما می دهد تا احتمال وجود جملات را به کل جملات اختصاص دهد.

همانطور که مدل های مبتنی بر ترانسفورماتور همچنان در حال تحول و به دست آوردن محبوبیت هستند ، به بررسی معماری های متنوع-مانند ترانسفورماتورهای رمزگذار ، فقط رمزگذار و رمزگذار (SEQ2SEQ)-امکانات بیشتری را برای کاوش در هر دو گزینه تولید کننده هوش مصنوعی نشان می دهد.

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/artificial-intelligence/the-generative-ai-model-map

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *