ترانسفورماتور برای ویدیو | به سمت هوش مصنوعی


نویسنده(های): سروش ختان

در ابتدا منتشر شد به سمت هوش مصنوعی.

توجه: این در ادامه است این وبلاگ که در آن من مدل های مختلف را برای انجام وظیفه طبقه بندی ویدیو مورد بحث قرار داده ام.

ویدیو چیزی نیست جز دنباله ای از تصاویر و از این رو برای استفاده از این اطلاعات توالی محققان می خواستم تست کنم مدل های توالی مانند RNN / LSTM / GRU / ترانسفورماتورها روی ویدیو مجموعه داده !!

از آنجایی که مدل ترانسفورماتور برجسته ترین مدل توالی است، در زیر فقط به ترانسفورماتور می پردازم اما می توانید معماری های مشابهی را با سایر مدل های دنباله طراحی کنید.

گرفتن الهام از ترانسفورماتورهای بینایی که در کار طبقه بندی تصویر دیدیم، محققان این معماری را برای ترانسفورماتورهای روی ویدئو طراحی کردند

مسئله معماری فوق این است که توجه زیادی به محاسبه می شود که به دلیل آن مدل زمان زیادی را برای محاسبات می گیرد و از این رو محققان می خواستند این محاسبات را کاهش دهند. آنها معماری های کارآمدتری را پیشنهاد کردند و یکی از این معماری ها توسط گوگل در سال 2021 در مقاله خود پیشنهاد شد ترانسفورماتورهای ویژن ویدئویی (ViViT). ابتدا اجازه دهید شهود پشت این معماری را درک کنیم

اکنون برای پیاده سازی این، نمودار معماری چیزی شبیه به زیر است…

در معماری فوق من فقط 1 ترانسفورماتور فضایی و 1 ترانسفورماتور زمانی را نشان داده ام اما می توانید تعداد بیشتری از این لایه های ترانسفورماتور را برای بهبود سیستم خود اضافه کنید اما به یاد داشته باشید

  • رمزگذاری موقعیت مکانی و رمزگذاری موقعیت زمانی به ترتیب تنها ورودی های اولین ترانسفورماتورهای مکانی و زمانی هستند.
  • همچنین، شما باید هر بار قبل از انتقال ورودی ها به ترانسفورماتور فضایی و ترانسفورماتور زمانی، تغییر شکل دهید تا مطمئن شوید که توجه به درستی محاسبه شده است، همانطور که در شهود نشان داده شده است.

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/artificial-intelligence/transformers-for-videos