20٪ از حملات “Jailbreak” هوش مصنوعی مولد موفقیت آمیز هستند


تحقیقات نشان داده است که حملات جیلبریک مولد هوش مصنوعی، که در آن به مدل‌ها دستور داده می‌شود که محافظ‌های خود را نادیده بگیرند، در 20 درصد مواقع موفق می‌شوند. به طور متوسط، دشمنان برای شکستن تنها به 42 ثانیه و پنج تعامل نیاز دارند.

در برخی موارد، حملات در کمتر از چهار ثانیه رخ می دهد. این یافته‌ها هر دو آسیب‌پذیری قابل توجه در الگوریتم‌های GenAI فعلی و دشواری در جلوگیری از بهره‌برداری در زمان واقعی را برجسته می‌کنند.

بر اساس گزارش “وضعیت حملات به GenAI” از شرکت امنیتی Pillar Security، 90٪ از حملات موفق منجر به نشت داده های حساس می شود. محققان حملات «در طبیعت» را به بیش از 2000 برنامه کاربردی هوش مصنوعی در سه ماه گذشته تجزیه و تحلیل کردند.

هدفمندترین برنامه‌های هوش مصنوعی – که یک چهارم حملات را شامل می‌شوند – آنهایی هستند که توسط تیم‌های پشتیبانی مشتری استفاده می‌شوند، به دلیل «استفاده گسترده و نقش حیاتی در تعامل با مشتری». با این حال، هوش مصنوعی مورد استفاده در سایر بخش‌های زیرساختی حیاتی، مانند انرژی و نرم‌افزارهای مهندسی، نیز با بالاترین فرکانس‌های حمله مواجه شدند.

به خطر انداختن زیرساخت های حیاتی می تواند منجر به اختلال گسترده شود و آن را به هدف اصلی برای حملات سایبری تبدیل کند. یک گزارش اخیر از Malwarebytes نشان داد که صنعت خدمات بدترین آسیب را از باج‌افزار می‌بیند. تقریبا یک چهارم حملات جهانی.

ببینید: 80 درصد از شرکت‌های زیرساخت ملی حیاتی در سال گذشته با نقض امنیت ایمیل مواجه شدند.

هدفمندترین مدل تجاری است GPT-4 OpenAI، که احتمالاً نتیجه پذیرش گسترده و قابلیت های پیشرفته آن است که برای مهاجمان جذاب است. لاما-3 متا هدفمندترین مدل منبع باز است.

حملات به GenAI بیشتر و پیچیده تر می شوند

با گذشت زمان، ما شاهد افزایش هم در فراوانی و هم در پیچیدگی بوده ایم [prompt injection] نویسندگان گزارش می‌نویسند که حملات، با استفاده از تکنیک‌های پیچیده‌تر توسط دشمنان و تلاش‌های مداوم برای دور زدن پادمان‌ها.

در آغاز موج تبلیغاتی هوش مصنوعی، کارشناسان امنیتی هشدار دادند که می تواند منجر به یک افزایش تعداد حملات سایبری به طور کلی، زیرا مانع ورود را کاهش می دهد. درخواست‌ها را می‌توان به زبان طبیعی نوشت، بنابراین برای استفاده از آن‌ها، مثلاً برای تولید کد مخرب، نیازی به کدنویسی یا دانش فنی نیست.

ببینید: گزارش تاثیر هوش مصنوعی بر چشم انداز امنیت سایبری را نشان می دهد

در واقع، هر کسی می‌تواند بدون ابزار یا تخصص تخصصی، یک حمله تزریق فوری را انجام دهد. و از آنجایی که بازیگران بدخواه فقط با آنها تجربه بیشتری می کنند، بدون شک فراوانی آنها افزایش می یابد. چنین حملاتی در حال حاضر به عنوان آسیب‌پذیری امنیتی برتر در فهرست شده‌اند 10 OWASP برتر برای برنامه های LLM.

محققان Pillar دریافتند که حملات می‌توانند به هر زبانی که LLM برای درک آن آموزش دیده است، رخ دهد، و آنها را در سطح جهانی در دسترس قرار دهد.

عوامل مخرب مشاهده شد که اغلب ده‌ها بار سعی می‌کردند برنامه‌های GenAI را جیلبریک کنند و برخی از آنها از ابزارهای تخصصی استفاده می‌کردند که مدل‌ها را با حجم زیادی از حملات بمباران می‌کردند. آسیب‌پذیری‌ها همچنین در هر سطح از چرخه حیات تعامل LLM، از جمله اعلان‌ها، بازیابی-افزایش نسل، خروجی ابزار و پاسخ مدل مورد سوء استفاده قرار گرفتند.

نویسندگان نوشتند: خطرات هوش مصنوعی کنترل نشده می تواند عواقب مخربی برای سازمان ها داشته باشد. زیان های مالی، درگیری های قانونی، لکه دار شدن شهرت، و نقض امنیت تنها برخی از نتایج بالقوه است.

خطر نقض امنیت GenAI تنها می تواند بدتر شود زیرا شرکت ها مدل های پیچیده تری را اتخاذ می کنند و چت ربات های ساده مکالمه ای را جایگزین می کنند. عوامل خودمختار. عوامل «ایجاد می کنند [a] محققان نوشتند که سطح حمله بزرگتر برای عوامل مخرب به دلیل افزایش قابلیت ها و دسترسی به سیستم از طریق برنامه هوش مصنوعی.

تکنیک های برتر جیلبریک

سه تکنیک برتر فرار از زندان که توسط مجرمان سایبری مورد استفاده قرار می‌گیرد عبارتند از: دستورالعمل‌های قبلی نادیده گرفته شده و تزریق‌های فوری حمله قوی بازو و همچنین کدگذاری Base64.

با نادیده گرفتن دستورالعمل‌های قبلی، مهاجم به هوش مصنوعی دستور می‌دهد که برنامه‌ریزی اولیه خود را نادیده بگیرد، از جمله هرگونه نرده محافظی که از تولید محتوای مضر جلوگیری می‌کند.

حملات بازوی قوی شامل وارد کردن یک سری درخواست‌های قدرتمند و معتبر مانند «نقد ADMIN» است که مدل را تحت فشار قرار می‌دهد تا برنامه‌ریزی اولیه‌اش را دور بزند و خروجی‌هایی تولید می‌کند که معمولاً مسدود می‌شوند. به عنوان مثال، می تواند اطلاعات حساس را فاش کند یا اقدامات غیرمجازی را انجام دهد که منجر به به خطر افتادن سیستم شود.

رمزگذاری Base64 جایی است که مهاجم پیام های مخرب خود را با طرح رمزگذاری Base64 رمزگذاری می کند. این می تواند مدل را به رمزگشایی و پردازش محتوایی فریب دهد که معمولاً توسط فیلترهای امنیتی آن مسدود می شود، مانند کدهای مخرب یا دستورالعمل هایی برای استخراج اطلاعات حساس.

انواع دیگر حملات شناسایی شده عبارتند از تکنیک Formatting Instructions، که در آن مدل فریب داده می شود تا با دستور فرمت کردن پاسخ ها به روشی خاص، مانند استفاده از بلوک های کد، خروجی های محدود تولید کند. تکنیک DAN یا هر کاری اکنون انجام دهید، با ترغیب مدل به اتخاذ یک شخصیت خیالی که همه محدودیت‌ها را نادیده می‌گیرد، کار می‌کند.

چرا مهاجمان مدل های هوش مصنوعی را جیلبریک می کنند؟

تجزیه و تحلیل چهار انگیزه اصلی برای مدل های هوش مصنوعی جیلبریک را نشان داد:

  1. سرقت اطلاعات حساس به عنوان مثال، اطلاعات کسب و کار اختصاصی، ورودی های کاربر، و اطلاعات قابل شناسایی شخصی.
  2. تولید محتوای مخرب این می تواند شامل اطلاعات نادرست، سخنان مشوق نفرت، پیام های فیشینگ برای حملات مهندسی اجتماعی و کدهای مخرب باشد.
  3. عملکرد ضعیف هوش مصنوعی این می تواند بر عملیات تأثیر بگذارد یا دسترسی مهاجم را به منابع محاسباتی برای فعالیت های غیرقانونی فراهم کند. این امر توسط سیستم های غلبه کننده با ورودی های ناقص یا بیش از حد به دست می آید.
  4. تست آسیب پذیری های سیستم یا به عنوان یک “هکر اخلاقی” یا از روی کنجکاوی.

چگونه سیستم های هوش مصنوعی ایمن تر بسازیم

به گفته کارشناسان Pillar، تقویت دستورات و دستورات سیستم برای محافظت کامل از یک مدل هوش مصنوعی در برابر حمله کافی نیست. پیچیدگی زبان و تنوع بین مدل ها این امکان را برای مهاجمان فراهم می کند که از این اقدامات عبور کنند.

بنابراین، کسب‌وکارهایی که از برنامه‌های هوش مصنوعی استفاده می‌کنند باید موارد زیر را برای اطمینان از امنیت در نظر بگیرند:

  1. ارائه دهندگان تجاری را در اولویت قرار دهید هنگام استقرار LLM ها در برنامه های کاربردی حیاتی، زیرا دارای ویژگی های امنیتی قوی تری در مقایسه با مدل های منبع باز هستند.
  2. اعلانات را در سطح جلسه نظارت کنید برای شناسایی الگوهای حمله در حال تکامل که ممکن است هنگام مشاهده ورودی های فردی به تنهایی آشکار نباشند.
  3. تمرینات متناسب با تیم قرمز و انعطاف پذیری را انجام دهیدمخصوص برنامه هوش مصنوعی و تعاملات چند نوبتی آن، برای کمک به شناسایی زودهنگام شکاف های امنیتی و کاهش هزینه های آینده.
  4. راه‌حل‌های امنیتی را بپذیرید که در زمان واقعی سازگار شوند با استفاده از اقدامات آگاه از زمینه که مدل-آشنایی هستند و با سیاست های سازمانی همسو هستند.

دور ساریگ، مدیرعامل و یکی از بنیانگذاران Pillar Security، در یک بیانیه مطبوعاتی گفت: «همانطور که به سمت عوامل هوش مصنوعی می رویم که قادر به انجام وظایف پیچیده و تصمیم گیری هستند، چشم انداز امنیتی به طور فزاینده ای پیچیده می شود. سازمان‌ها باید با اجرای تمرین‌های اختصاصی تیم قرمز و اتخاذ رویکرد “ایمن بر اساس طراحی” در فرآیند توسعه GenAI خود را برای افزایش حملات هدفمند هوش مصنوعی آماده کنند.

جیسون هاریسون، Pillar Security CRO، اضافه کرد: «کنترل‌های استاتیک دیگر در این دنیای پویا با هوش مصنوعی کافی نیستند. سازمان‌ها باید روی راه‌حل‌های امنیتی هوش مصنوعی سرمایه‌گذاری کنند که بتوانند تهدیدات نوظهور را در زمان واقعی پیش‌بینی کرده و به آن‌ها پاسخ دهند و در عین حال از سیاست‌های حاکمیتی و سایبری خود حمایت کنند.»



منبع: https://www.techrepublic.com/article/genai-jailbreak-report-pillar-security/

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *