نویسنده (ها): yash thube
در ابتدا منتشر شده در به سمت هوش مصنوعیبشر
تصور کنید که در مقابل یک ماشین وسیع و زوزه زده ایستاده اید که کار داخلی آنها در پشت تابلوهای مات پنهان است. شما می توانید ورودی ها را مشاهده کنید و خروجی ها را بیرون می آورند ، اما آنچه در داخل اتفاق می افتد یک راز است. اینگونه است که بیشتر ما مدرن را تجربه می کنیم یادگیری عمیق مدل ها – جعبه های قدرتمند ، گاه حیرت انگیز ، اما در نهایت سیاه. تفسیر مکانیکی (MI) جهت تحقیق است که می خواهد آن پنل ها را باز کند و هر نوع COG و دنده ای را که تصمیمات یک شبکه عصبی را هدایت می کند ، درک کند.
چرا فراتر از “چه” به “چگونه” بروید؟
ابزارهای تفسیر سنتی – نقشه های شوری ، نمرات اهمیت ویژگی ، آهک ، شکل ، ارزش زیادی را ارائه می دهند. آنها به ما می گویند کدام ویژگی های ورودی بر یک پیش بینی تأثیر گذاشت. اما آنها از آشکار کردن متوقف می شوند چگونه این شبکه در واقع پاسخ خود را محاسبه می کند. MI ما را از همبستگی به علیت کافی نیست بدانید که “مدل به این پیکسل ها نگاه می کند” ؛ ما می خواهیم بدانیم که نورونها روشن می شوند ، کدام مدارها آن فعال سازی ها را پردازش می کنند و به چه ترتیب. هدف ما این است که محاسبه شبکه را به صورت قابل خواندن انسان ، تقریباً مانند شبه کد برای یک قطعه نرم افزار بازسازی کنیم.
block بلوک های ساختمانی
- ویژگی
در پایین ترین سطح ، یک ویژگی الگویی است که شبکه می آموزد آن را تشخیص دهد – لبه های موجود در یک تصویر ، بخش هایی از گفتار در متن یا بافت های موجود در یک صحنه. مدل های دید اولیه نورونهایی را نشان داد که خطوط افقی یا رنگ قرمز را تشخیص می دهند. در مدل های زبان ، برخی از نورونها در پاسخ به علائم نقل قول یا ساختارهای گرامری خاص سنبله می کنند. - نورونهای چند شیمیایی و فوق العاده
واقعیت به سرعت کثیف می شود: نورونها غالباً به “چندمسامی” تبدیل می شوند ، به این معنی که آنها به ویژگی های متعدد و به ظاهر نامربوط پاسخ می دهند. یک نورون منفرد ممکن است برای صورت گربه و جبهه های اتومبیل آتش بگیرد. در فرض نشان می دهد که شبکه ها با همپوشانی بازنمایی ، ویژگی های بیشتری را در مجموعه محدود نورون های خود قرار می دهند. این بدان معنی است که ما همیشه نمی توانیم به یک نورون اشاره کنیم و بگوییم ، “این آشکارساز گربه است.” - مدارها
اینها گروههایی از نورون ها هستند که برای انجام یک عملکرد همکاری می کنند. یک مدار سطح پایین ممکن است لبه ها و بافت ها را تشخیص دهد. سطح متوسط ممکن است آن را در “گوش گربه” یا “سخنگوی چرخ” ترکیب کند. یک مدار سطح بالا ممکن است قطعات را در کل بازنمایی های شی جمع کند. با نقشه برداری از این مدارها ، ما شروع به دیدن خط لوله پردازش سلسله مراتبی شبکه می کنیم.
tools از تجارت: مداخلات علی
برای انتقال از ارتباط به علیت ، محققان استخدام می کنند وصله فعال سازی وت ردیابی علیبشر
- وصله فعال سازی: مدل را بر روی ورودی “تمیز” و نسخه “فاسد” اجرا کنید (به عنوان مثال ، تصویری با سر و صدا). سپس ، به طور انتخابی فعال سازی ها را در اجرای خراب با مواردی که از Clean Run استفاده می کنند ، جایگزین کنید. اگر تعویض فعال سازی یک لایه خاص عملکرد مدل را بازیابی کند ، آن لایه باید برای کار بسیار مهم باشد.
- ردیابی علی: به طور گسترده تر ، این شامل اضافه کردن نویز یا انجام مداخلات کوچک در نقاط مختلف شبکه است تا ببینیم چگونه خروجی تغییر می کند. با استفاده از نخورده یا لکه دار کردن سیستماتیک ، جریان اطلاعات را ترسیم می کنیم و نورونها و مدارهای موجود را نشان می دهیم.
آنها به من یادآوری می کنند سرهای القایی در ترانسفورماتورها ، که یادگیری متن را با مشاهده الگوهای مکرر در یک دنباله ، یا مدار “شناسایی غیرمستقیم شی” در مدلهای زبانی که به طور قابل اعتماد اسم مناسب را هنگام تکمیل یک جمله انتخاب می کنند ، امکان پذیر می کنند.
📌 تفسیر مدل های بینایی و مدل های بینایی و زبان
در حالی که بخش اعظم کارهای اولیه MI روی زبان و کارهای مصنوعی متمرکز شده است ، Vision داستان تفسیر غنی خود را دارد – و فقط وقتی پیکسل ها را با نثر مخلوط می کنید جذاب تر می شود.
CNNS و مدل های دید اولیه
- فیلتر و تجسم ویژگی
محققان با بهینه سازی تصاویر ورودی برای فعال کردن حداکثر یک فیلتر حلقوی منفرد ، دیدنی های لبه های واضح (افقی ، عمودی) ، حباب های رنگ و الگوهای بافت را مشاهده کردند. این تجسم ها اولین نگاه بتن را به آنچه در لایه های دید اولیه “جستجو می کنند” نشان داد. - قطع شبکه
استفاده از تقسیم بندی با برچسب انسان مجموعه داده ها، این روش نقشه فعال سازی هر کانال پنهان را با مفاهیم معنایی شناخته شده – ابرها ، چرخ ها ، چهره ها – تراز می کند – تعیین اینکه چگونه نورونهای فردی به عنوان ردیاب برای ویژگی های قابل تفسیر عمل می کنند.
ترانسفورماتور بینایی (VITS)
- توجه – تجزیه و تحلیل سرب
Vits هر تکه از یک تصویر را به چندین توجه توجه اختصاص می دهد. محققان با نقشه برداری که هر سر در آن شرکت می کند ، روابط مکانی ریز دانه و مدارهای مبتنی بر قسمت را نشان می دهد. - کشف مدار
وصله علیت در VITS مدارهای “قسمت” قسمت “قسمت” (چرخ ، گوش) و مدارهای “شی” را در اواخر (کل گربه ، ماشین کامل) کشف کرده است. ردیابی این مسیرها یک سلسله مراتب واضح را نشان می دهد: پیکسل → لبه ها → قطعات → کل اشیاء.
مدل های دید و زبانی (VLMS)
آداپتور – VLM های سبک مانند Llava Clip Embeddings را به عنوان “سوابق نرم” به یک مدل زبان یخ زده تزریق می کنند. مقاله به سمت تفسیر پردازش اطلاعات بصری در بینایی-زبان (ICLR 2025) مجموعه ای از آزمایشات را برای نشان دادن سه مکانیسم اصلی در مؤلفه LM LLAVA انجام داد.
- بومی سازی موردنظر
فرسایش نشانه های بصری مربوط به تکه های تصویر یک شی باعث می شود که صحت شناسایی شیء بیش از 70 ٪ کاهش یابد ، در حالی که کاهش نشانه های جهانی “ثبت” تأثیر کمتری دارد. این نشان می دهد که اطلاعات شیء بسیار بومی شده در نشانه های هم تراز شده فضایی است. - ورود به سیستم پالایش LENS
استفاده از لنزهای ورود به سیستم در فعال سازی های بصری در لایه ها نشان می دهد که با لایه های دیررس ، بخش قابل توجهی از نشانه ها به طور مستقیم به واژگان کلاس شیء (به عنوان مثال ، “سگ” ، “چرخ”) رمزگشایی می شوند ، با وجود LM که هرگز در مورد پیش بینی های بعدی برای تصاویر آموزش داده نمی شود. تراز اوج در اطراف لایه 26 از 33 رخ می دهد ، تأیید می کند که VLM ها بازنمودهای بصری را به سمت تعبیه مانند زبان تصحیح می کنند. - ردیابی حذفی توجه
مسدود کردن توجه از نشانه های شیء به نشانه نهایی در لایه های میانی تا late عملکرد را به شدت کاهش می دهد ، در حالی که مسدود کردن نشانه های غیر شیء یا ردیف آخر نشانه های بصری تأثیر کمی دارد. این نشان می دهد که این مدل اطلاعات شی را مستقیماً از آن نشانه های بومی سازی به جای خلاصه کردن آن در جای دیگر استخراج می کند.
با هم ، این یافته ها نشان می دهد که VLM ها نه تنها ویژگی های تصویر را بومی سازی و تصفیه می کنند بلکه آنها را از طریق مدارهای مادل زبان – به روش های مشابه با متن پردازش می کنند.
📌mechanist در مقابل تفسیر پس از hoc
در حالی که روش های پس از HOC برای تشخیص سریع و بررسی های مدل آگنوستیک بسیار ارزشمند است ، MI بینش های عمیق تری را برای شفافیت واقعی ، ممیزی های ایمنی و مداخلات هدفمند ارائه می دهد.
– چرا مهم است
از آنجا که سیستم های هوش مصنوعی به طور فزاینده تصمیمات مهم را شکل می دهند – از مصوبات وام گرفته تا تشخیص پزشکی – سهام برای درک و کنترل آنها نمی تواند بیشتر باشد. MI قول می دهد:
- اشکالات را کشف و رفع کنید: با ردیابی محاسبات دقیق ، می توانیم نقص ها را پیدا کرده و از عملکرد قابل اعتماد اطمینان حاصل کنیم.
- کشف و کاهش تعصب: مدارهایی را که تعصبات نامطلوب را رمزگذاری می کنند شناسایی کنید و به صورت انتخابی آنها را مرطوب یا بازیابی کنید.
- از تراز اطمینان حاصل کنید: اهداف پنهان یا اهداف نادرست قبل از اینکه در رفتارهای مضر آشکار شوند.
- اعتماد را فعال کنید: به تنظیم کننده ها ، پزشکان و مردم یک پنجره روشن برای تصمیم گیری در مورد هوش مصنوعی ارائه دهید.
چالش ها و مسیرهای آینده
در حالی که تفسیر مکانیکی بینش های عمیقی در مورد مدل های کوچک و متوسط در مقیاس ارائه داده است ، چندین مانع قبل از آن باقی مانده است که بتواند بزرگترین و نتیجه ترین شبکه ها را ترک کند.
- تجزیه و تحلیل مقیاس به مدل های عظیم
مدل هایی با ده ها یا صدها میلیارد پارامتر ، انفجار ترکیبی در تعداد نورون ها ، لایه ها و تعامل های احتمالی را معرفی می کنند. کشف مدار دستی به سادگی مقیاس نمی کند. الگوریتم ها و ابزار جدید برای تریاژ و اولویت بندی کدام یک از زیر شبکه ها برای بازرسی در ابتدا لازم است. - نمایش های تمینگ و بازنمایی های توزیع شده
هنگامی که ویژگی ها نورونهای خود را در همپوشانی تعبیه های “فوق العاده” به اشتراک می گذارند ، جدا کردن یک مفهوم واحد به یک معما تبدیل می شود. به همین ترتیب ، بازنمایی های توزیع شده اطلاعات را در بسیاری از واحدها پخش می کنند ، و مشخص کردن “جایی که” یک ویژگی در آن زندگی می کند ، دشوار است. روشهای برای جدا کردن این همپوشانی ها – شاید از طریق برنامه نویسی پراکنده یا تنظیم جدید – یک جهت تحقیق فعال است. - کشف مدار خودکار
امروز ، کارهای تفسیر زیادی هنوز به شهود انسان متکی است تا مدارها یا ویژگی های نامزد را پیشنهاد کند. برای رسیدگی به مدلهای موجود در دنیای واقعی ، ما به سیستم های سبک خط لوله نیاز داریم که می توانند به طور خودکار (1) خوشه های فعال سازی جالب را شناسایی کنند ، (2) آنها را به مدارهای نامزد گروه بندی می کنند و (3) مداخلات علّی را برای اعتبار یا رد آنها انجام می دهند. - معیارهای ارزیابی دقیق و وفاداری
چگونه می دانیم که تفسیرهای ما واقعاً منعکس کننده آنچه مدل انجام می دهد ، به جای اینکه داستان های گیلاس باشد؟ توسعه معیارها و معیارهای کمی ، مانند اندازه گیری چگونگی عملکرد یک مدار کشف شده رفتار بر روی داده های نگهدارنده یا مقایسه فرضیه های جایگزین ، برای ایجاد اعتماد به یافته های MI بسیار مهم است. - گسترش به یادگیری چندمودال و مداوم
از آنجا که مدل ها از جریان داده ها در سراسر چشم انداز ، زبان ، صوتی و فراتر از آن یاد می گیرند و به طور مداوم در استقرار به روز می شوند ، ما باید روشهای تفسیر را برای رسیدگی به بازنمایی ها و تعامل های در حال تحول در بین روشها تطبیق دهیم. - مداخله و کنترل
در نهایت ، ما می خواهیم نه تنها مدل ها را درک کنیم بلکه آنها را هدایت کنیم – اشکالات را تعمیر کنیم ، تعصبات را از بین ببریم و محدودیت های ایمنی را اجرا کنیم. ایجاد ابزارهای قابل اعتماد “جراحی مدار” که می توانند مکانیسم های خاص را بدون عوارض جانبی ناخواسته غیرفعال یا تنظیم کنند ، یک هدف بلند مدت است.
📌 افکار
تفسیر مکانیکی بیش از یک چالش فنی است – این یک تغییر فلسفی است. ما از درمان شبکه های عصبی به عنوان اوراکل های غیرقابل توصیف حرکت می کنیم تا آنها را به عنوان آثار باستانی مهندسی مشاهده کنیم که کارهای درونی آنها را می توان لخت ، درک و بهبود بخشید.
من فکر می کنم سفر دشوار است ، پازل ها پیچیده هستند و جاده طولانی است ، اما مقصد – شفاف ، کنترل و AI قابل اعتماد – یکی از مواردی است که همه ما می توانیم موافقت کنیم که ارزش آن را دارد.
برای خواندن بیشتر لینک می کند
تفسیر مکانیکی برای ایمنی هوش مصنوعی یک بررسی
مشکلات باز در تفسیر مکانیکی
رفتار مدار سازگار و تعمیم در تفسیر مکانیکی
از نورون ها گرفته تا نوترون: یک مطالعه موردی در تفسیر
تلاش برای واسطه مناسب: تاریخ ، نظرسنجی و مبنای نظری تفسیر علی
برای چشم انداز:
مقیاس به تنهایی تفسیر مکانیکی را در مدلهای بینایی بهبود نمی بخشد
به سمت تفسیر پردازش اطلاعات بصری در مدلهای بینایی زبان
PixelShap | آنچه VLM ها واقعاً به آن توجه می کنند
جای خالی را پر کنید: تفسیر تجدید نظر در بینایی
کنجکاو بمانید … در مورد بعدی شما را ببینید!
منتشر شده از طریق به سمت هوش مصنوعی