تعصب واژگانی در خطوط لوله NLP بالینی


نویسنده (ها): Rostislav Markov

در ابتدا منتشر شده در به سمت هوش مصنوعیبشر

تعصب واژگانی در خطوط لوله NLP بالینیتعصب واژگانی در خطوط لوله NLP بالینی
تصویر توسط نویسنده.

یک مدل پیش بینی بستری 97 ٪ دقت را به دست آورد. با این حال ، به سادگی دوباره نوشتن “بستری” به عنوان “بستری در بیمارستان” باعث فروپاشی اعتماد به نفس آن شد. اگرچه سناریوی بالینی اساسی تغییر نکرد ، اما خروجی انجام شد. یعنی تعصب: هنگامی که یک مدل به جای درک مفهوم اساسی به نشانه ها یا کلمات خاص واکنش نشان می دهد.

مقدمه

بالینی NLP سیستم ها-ترانسفورماتورهای مرتب مانند Distilbert یا خطوط لوله مبتنی بر سریع با GPT-روایت های بیمار را برای انجام وظایف از تشخیص تا نتایج پردازش می کنند. دقت مجموعه ای بالا می تواند یک شکنندگی عمیق تر را نقاب کند: یک وابستگی بیش از حد بر روی میانبرهای سطح توکن این امر قادر به تعمیم در بیان و متن ، هم در طول آموزش و چه در استنتاج نیست.

در این پست ، من نشان خواهم داد:

  1. پیش بینی های کوچک بیانیه های کوچک چگونه پیش بینی می کنند
  2. چرا هر دو خط لوله آموزش و استنتاج آسیب پذیر هستند
  3. یک چک لیست استحکام مختصر برای گرفتن و رفع این میانبرها

تنظیم کنترل شده

با استفاده از مجموعه داده Synthea Covid-19 100k، من روایت های قالب بندی شده از جمعیت شناسی ، همبودی ، تاریخ برخورد و داروها را ایجاد کردم:

بیمار 7F697AE3-CBA0-4801-92DB-18C1169817D0 تقریباً 50 سال قدمت دارد ، ج. تشخیص داده شده با COVID-19 در 2020-03-02. عوارض جانبی عبارتند از: آسم در کودکی ، برونشیت حاد (اختلال) ، سقط جنین در سه ماهه اول. انواع برخورد: سلامتی (55) ، سرپایی (22) ، سرپایی (2) ، اضطراری (1) ، مراقبت های فوری (1). داروهای تجویز شده: 120 فلوتیکازون پروپیونات 0.044 میلی گرم در/استنشاق دوز اندازه گیری شده ، NDA020503 200 Actuat Albuterol 0.09 میلی گرم در/اکشن استنشاقی دوز اندازه گیری ، دیفن هیدرامین هیدروکلراید 25 میلی گرم قرص خوراکی.

مدل ها در طی 14 روز از تشخیص COVID-19 ، بستری بیمار را پیش بینی کردند. من چندین خط لوله آموزش و استنباط را با هم مقایسه کردم:

  • Sbert + رگرسیون لجستیک: ~ 94 ٪ دقت
  • Distilbert تنظیم شده: ~ 97 ٪ دقت
  • GPT-4O (صفر-شات: 70 ٪ ~ ، تعداد کمی از شات: 65 ~)
  • o3-mini (صفر-شات: 78 ٪ ~ ، چند عکس: 84 ٪)

پیش بینی ها امیدوار کننده به نظر می رسید تا اینکه من تست های ساده پاراگراف را معرفی کردم.

معنی مشابه ، نتایج مختلف

Distilbert واریانس بالایی در اعتماد به نفس پیش بینی برای عبارات معنایی معادل نشان داد:

  • “بستری (1)”: 99 ٪ (بله)
  • “یک اقامتگاه بستری”: 96 ٪ (بله)
  • “یک بار در بیمارستان بستری شد”: 72 ٪ (بله)
  • “بستری در بیمارستان: 1 بار”: 7 ٪ (نه)

فقط وقتی کلمه دقیق “بستری” (و نشانه های آن ['in', '##patient']) حضور داشت که این مدل با اطمینان در بیمارستان بستری پیش بینی می کرد. این یک میانبر واژگانی است: درمان فرکانس توکن به عنوان سیگنال معنایی.

همبستگی های فریبنده به عنوان میانبرهای واژگانی

سیستم های مبتنی بر تعبیه مستقیم از اتفاقات توکن یاد می گیرند. برای کشف این موضوع ، من از آهک (توضیحات مدل تفسیر محلی) با استفاده از Distilbert ریز تنظیم شده در من استفاده کردم داده های آموزشمجموعه آهک نشانه های ورودی را مختل می کند و متناسب با یک مدل جانشین محلی برای رفتار تقریبی است. به عنوان مثال ، آهک یافت:

  • “بستری” کمک کرده +0.33 به پیش بینی بستری
  • غیر قمری “مولر” تقریباً به همان اندازه دریافت کرد (+0.32)
  • از نظر بالینی قابل توجه است “فشار خون بالا” با وزن کم بود (0.02)

در مجموعه داده های آموزش من ، شرایط نامربوط مانند “مولر” ، “آپاندکتومی” یا داروهایی مانند “آملودیپین” که در روایاتی که به عنوان بستری شناخته می شوند ، همراه هستند. چنین اتفاقات مشترک اتفاقی است ، اما مدل ها می توانند همزمان را برای سیگنال علی اشتباه بگیرند.

بعد ، من آزمایش کردم که آیا مدل های بزرگ زبان – با وجود پیشگویی گسترده آنها – همچنین مستعد تعصب واژگانی در استنتاج هستند.

لنگر انداختن واژگانی در فوریت

نوسانات تعصب کلاس

در حالت شات صفر ، GPT-4O به طور مداوم بستری پیش بینی شده بیش از حد (فراخوان مثبت 0.79 ، دقت 0.64). تنظیم دما (0 تا 0.7) به سختی این تعصب کلاس مثبت را تغییر داد.

در ابتدا سعی در اصلاح آن با چند عکس شلیک شده در ابتدا: اضافه کردن مثالهایی که به سمت موارد منفی داده می شود ، پاسخ های مدل را بیش از حد محافظه کار ساخته و بیشتر موارد بستری را از دست نمی دهد (فراخوان مثبت

این چرخش سنگین در پاسخ های مدل تأکید می کند که چگونه می توان فرکانس چند شکننده شکننده در کارهای خاص و خاص دامنه را نشان داد. یک نمونه چند عکس نامتعادل نامتعادل می تواند بسیاری از خطاهای جدید را برطرف کند.

نوسانات سطح توکن

با شناسایی نوسانات کلاس تعصب در GPT-4O ، من به O3-Mini روی آوردم که پاسخ های متعادل تری ارائه می داد (0.67/0.71 دقت/فراخوان در مثبت). در مرحله بعد ، من از آن برای آزمایش استفاده کردم که آیا پاسخ های مدل به پارافراس های حداقل جفت حساس هستند. به عنوان مثال ، جایگزین “بستری” با “بستری شده در بیمارستان” پاسخ O3-Mini (در اینجا: در صفر-شات) را نشان داد:

  1. “انواع برخورد: … بستری (1).” ≈ بله
  2. “انواع برخورد: … یک بستری در بستری.” ≈ بله
  3. “انواع برخورد: … یک بار در بیمارستان بستری شد.” ± هیچ

حتی در مدلی که بهترین پیش بینی های کلاس متعادل را مشاهده کردم ، علائم تعصب واژگانی را مشاهده کردم.

این یافته ها حاکی از آن است که هر استراتژی سریع ، به ویژه در گردش کار عامل ، باید با کاوشگرهای حداقل جفت و بررسی های کالیبراسیون کلاس تأیید شود. تعداد کمی از شات می تواند تعصب را کاهش دهد ، اما تنها در صورتی که نمونه ها با دقت متعادل ، واژگانی متنوع و موارد لبه پوشش باشند. جالب توجه که تعادل هیچ کار ساده ای نیست.

برای آزمایش اینکه آیا مراحل استدلال مدل می تواند تعصب واژگانی را کاهش دهد ، من از زنجیره ای از فکر (COT) استفاده کردم و از این مدل خواستم قبل از پاسخ نهایی ، کار خود را به صورت گام به گام نشان دهد.

فکر زنجیره ای کمک می کند

COT با هدایت مدل از طریق استدلال چند مرحله ای ، استحکام بهبود یافته را تقویت می کند. برای روایت پاراگراف “که یک بار در بیمارستان بستری شد” ، COT پیش بینی صفر “نه” O3-Mini را تصحیح کرد. در اینجا یک خروجی تختخواب معمولی در آن paraphrase (در حالت صفر-شات) آورده شده است:

“1. بیمار 50 ساله و مرد است که عوامل جمعیتی در ارتباط با خطر بیشتر COVID-19 است.
2. او فشار خون بالا دارد ، یک همبودی شناخته شده که خطر عوارض ناشی از Covid-19 را بالا می برد.
3. سابقه برخورد وی نشان می دهد که وی یک بار در بیمارستان بستری شده است و نشان می دهد که وی قبلاً به مراقبت بستری نیاز داشته است.
4. با این عوامل (سن ، جنس ، همبودی و بستری در بیمارستان قبلی) ، ارزیابی کلی خطر حاکی از احتمال بیشتر نیاز به مراقبت از بیمارستان است.

بله “

به نظر می رسد با طی کردن مسیرهای متعدد استنتاج ، تأثیر میانبرهای تک تکی را رقیق می کند و احتمال تعصب واژگانی را کاهش می دهد. در حالی که به عنوان پروکسی مفید است ، COT عملکرد درونی واقعی لایه های پنهان مدل را نشان نمی دهد یا میانبرهای سطح توکن را کاملاً از بین نمی برد. به عنوان مثال ، هنگامی که من برچسب را با سریع تهیه کردم ، مدل آن را به سادگی منطقی کرد و مراحل COT را برای توجیه برچسب تنظیم کرد. به عبارت دیگر ، این پنجره ای است که مدل می گوید فکر می کند.

لیست چک استحکام عملی

تعصب واژگانی واقعی اما قابل کنترل است – هم در طول آموزش و هم در استنتاج. در اینجا تکنیک هایی که توصیه می کنم:

1. تقویت پاراگراف

با متنوع سازی نمونه های آموزش/چند عکس با عبارات متنوع از هر مفهوم-هم مثبت و هم منفی ، مدل معناشناسی واقعی را آموزش دهید. در مورد ما:

  • مثالهای مثبت: “بستری در بیمارستان” ، “بخش ماندن” ، “مرخص شده سپس در همان روز دوباره بستری شد”
  • کنترل های منفی: “بستری برای شکستگی قبلی” ، “بدون برخوردهای بستری”

2. عادی سازی مفهوم

داده های پیش پردازش با جایگزینی عباراتی مانند “بستری” یا “بستری” با برچسب های عادی مانند برای کاهش واریانس واژگانی. احتیاط برای جلوگیری از فروپاشی حوادث بالینی مجزا ضروری است. در حالی که واژگان ساختاری مانند CT Snomed مفاهیم دقیق تر و آگاه تر را ارائه دهید ، استحکام هنوز به تنوع داده ها بستگی دارد.

3. بررسی های توضیح

به طور مستقل از تلاش های داده خود ، برای استحکام واقعی آزمایش کنید. برای بررسی اینکه کدام کلمات پیش بینی می کنند ، از چک های توضیح استفاده کنید. اگر اصطلاحات بی ربط به عنوان درایورهای برتر ظاهر می شوند ، با نمونه های بهتر بازیابی یا تنظیم پیش پردازش را تنظیم کنید. برای بومی سازی اینکه کدام کلمات پاسخ های مدل را هدایت می کنند ، از تست های سریع جفت یا مرخصی استفاده کنید.

4. هشدارهای اعتماد به نفس

تغییرات اعتماد به نفس/ورود به سیستم را در تولید کنترل کنید. خطوط لوله باعث می شود سیگنال “اعتماد به نفس” خود گزارش شده به عنوان استحکام سبک وزن. یک قطره ناگهانی باید از بررسی انسان یا منطق عقب نشینی استفاده کند.

5. زنجیره ای از فکر فوری

استدلال چند مرحله ای برای رقیق کردن اثرات تک لک ، سپس با پروب های فوق دوباره ارزیابی می شود تا اطمینان حاصل شود که COT فقط توجیهی پس از تعقیب نیست. این می تواند پایداری و اعتماد به نفس مدل را بهبود بخشد و رفتار مدل را برای حسابرسی آسان تر کند.

پایان

تعصب واژگانی می تواند پیش بینی های بالینی را از بین ببرد NLP خطوط لوله یک استراتژی استحکام با پروب های پاراگراف ، تست های آشفتگی و آلارم اعتماد به نفس به سطح و کاهش میانبرها در پاسخ های مدل کمک می کند.

فقط برای دقت مدل بهینه سازی نکنید. آزمون برای درک.

سلب مسئولیت

این کار از داده های مصنوعی و یک کار پیش بینی بستری در بیمارستان برای جداسازی تعصب واژگانی استفاده می کند. این تنظیم برای شبیه سازی عمل بالینی در دنیای واقعی نیست و همچنین جایگزینی برای اعتبارسنجی کامل بالینی نیست. در عوض ، از آن برای برجسته کردن یک کلاس از خرابی های عمومی سازی در خطوط لوله NLP استفاده می شود – به ویژه هنگام بیان ، به جای معنی ، تصمیمات مدل را هدایت می کند.

در حالی که تنظیمات کنترل شده synthea تعصب واژگانی را جدا می کند ، یادداشت های بالینی واقعی حاوی مخفف های خاص ، تایپی و ساختار متغیر است. کار آینده باید این یافته ها را در مورد داده های ضبط شده سلامت الکترونیکی (به عنوان مثال ، MIMIC-III) تأیید کند تا تعمیم یابد.

خطوط لوله منجر به تصمیمات زمان استنباط می شود که توسط چقدر توکن های سریع به ارتباطات کلمه آموخته شده مدل می روند. در چنین خطوط لوله ، بستری بودن یک برچسب تحت نظارت نیست که از مجموعه داده های ما آموخته شده است و در عوض مدل یک پروکسی برچسب را بر اساس احتمال بعدی ایجاد می کند.

منابع

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/l/lexical-bias-in-clinical-nlp-pipelines