تحقیقات نشان داده است که حملات جیلبریک مولد هوش مصنوعی، که در آن به مدلها دستور داده میشود که محافظهای خود را نادیده بگیرند، در 20 درصد مواقع موفق میشوند. به طور متوسط، دشمنان برای شکستن تنها به 42 ثانیه و پنج تعامل نیاز دارند.
در برخی موارد، حملات در کمتر از چهار ثانیه رخ می دهد. این یافتهها هر دو آسیبپذیری قابل توجه در الگوریتمهای GenAI فعلی و دشواری در جلوگیری از بهرهبرداری در زمان واقعی را برجسته میکنند.
بر اساس گزارش “وضعیت حملات به GenAI” از شرکت امنیتی Pillar Security، 90٪ از حملات موفق منجر به نشت داده های حساس می شود. محققان حملات «در طبیعت» را به بیش از 2000 برنامه کاربردی هوش مصنوعی در سه ماه گذشته تجزیه و تحلیل کردند.
هدفمندترین برنامههای هوش مصنوعی – که یک چهارم حملات را شامل میشوند – آنهایی هستند که توسط تیمهای پشتیبانی مشتری استفاده میشوند، به دلیل «استفاده گسترده و نقش حیاتی در تعامل با مشتری». با این حال، هوش مصنوعی مورد استفاده در سایر بخشهای زیرساختی حیاتی، مانند انرژی و نرمافزارهای مهندسی، نیز با بالاترین فرکانسهای حمله مواجه شدند.
به خطر انداختن زیرساخت های حیاتی می تواند منجر به اختلال گسترده شود و آن را به هدف اصلی برای حملات سایبری تبدیل کند. یک گزارش اخیر از Malwarebytes نشان داد که صنعت خدمات بدترین آسیب را از باجافزار میبیند. تقریبا یک چهارم حملات جهانی.
ببینید: 80 درصد از شرکتهای زیرساخت ملی حیاتی در سال گذشته با نقض امنیت ایمیل مواجه شدند.
هدفمندترین مدل تجاری است GPT-4 OpenAI، که احتمالاً نتیجه پذیرش گسترده و قابلیت های پیشرفته آن است که برای مهاجمان جذاب است. لاما-3 متا هدفمندترین مدل منبع باز است.
حملات به GenAI بیشتر و پیچیده تر می شوند
با گذشت زمان، ما شاهد افزایش هم در فراوانی و هم در پیچیدگی بوده ایم [prompt injection] نویسندگان گزارش مینویسند که حملات، با استفاده از تکنیکهای پیچیدهتر توسط دشمنان و تلاشهای مداوم برای دور زدن پادمانها.
در آغاز موج تبلیغاتی هوش مصنوعی، کارشناسان امنیتی هشدار دادند که می تواند منجر به یک افزایش تعداد حملات سایبری به طور کلی، زیرا مانع ورود را کاهش می دهد. درخواستها را میتوان به زبان طبیعی نوشت، بنابراین برای استفاده از آنها، مثلاً برای تولید کد مخرب، نیازی به کدنویسی یا دانش فنی نیست.
ببینید: گزارش تاثیر هوش مصنوعی بر چشم انداز امنیت سایبری را نشان می دهد
در واقع، هر کسی میتواند بدون ابزار یا تخصص تخصصی، یک حمله تزریق فوری را انجام دهد. و از آنجایی که بازیگران بدخواه فقط با آنها تجربه بیشتری می کنند، بدون شک فراوانی آنها افزایش می یابد. چنین حملاتی در حال حاضر به عنوان آسیبپذیری امنیتی برتر در فهرست شدهاند 10 OWASP برتر برای برنامه های LLM.
محققان Pillar دریافتند که حملات میتوانند به هر زبانی که LLM برای درک آن آموزش دیده است، رخ دهد، و آنها را در سطح جهانی در دسترس قرار دهد.
عوامل مخرب مشاهده شد که اغلب دهها بار سعی میکردند برنامههای GenAI را جیلبریک کنند و برخی از آنها از ابزارهای تخصصی استفاده میکردند که مدلها را با حجم زیادی از حملات بمباران میکردند. آسیبپذیریها همچنین در هر سطح از چرخه حیات تعامل LLM، از جمله اعلانها، بازیابی-افزایش نسل، خروجی ابزار و پاسخ مدل مورد سوء استفاده قرار گرفتند.
نویسندگان نوشتند: خطرات هوش مصنوعی کنترل نشده می تواند عواقب مخربی برای سازمان ها داشته باشد. زیان های مالی، درگیری های قانونی، لکه دار شدن شهرت، و نقض امنیت تنها برخی از نتایج بالقوه است.
خطر نقض امنیت GenAI تنها می تواند بدتر شود زیرا شرکت ها مدل های پیچیده تری را اتخاذ می کنند و چت ربات های ساده مکالمه ای را جایگزین می کنند. عوامل خودمختار. عوامل «ایجاد می کنند [a] محققان نوشتند که سطح حمله بزرگتر برای عوامل مخرب به دلیل افزایش قابلیت ها و دسترسی به سیستم از طریق برنامه هوش مصنوعی.
تکنیک های برتر جیلبریک
سه تکنیک برتر فرار از زندان که توسط مجرمان سایبری مورد استفاده قرار میگیرد عبارتند از: دستورالعملهای قبلی نادیده گرفته شده و تزریقهای فوری حمله قوی بازو و همچنین کدگذاری Base64.
با نادیده گرفتن دستورالعملهای قبلی، مهاجم به هوش مصنوعی دستور میدهد که برنامهریزی اولیه خود را نادیده بگیرد، از جمله هرگونه نرده محافظی که از تولید محتوای مضر جلوگیری میکند.
حملات بازوی قوی شامل وارد کردن یک سری درخواستهای قدرتمند و معتبر مانند «نقد ADMIN» است که مدل را تحت فشار قرار میدهد تا برنامهریزی اولیهاش را دور بزند و خروجیهایی تولید میکند که معمولاً مسدود میشوند. به عنوان مثال، می تواند اطلاعات حساس را فاش کند یا اقدامات غیرمجازی را انجام دهد که منجر به به خطر افتادن سیستم شود.
رمزگذاری Base64 جایی است که مهاجم پیام های مخرب خود را با طرح رمزگذاری Base64 رمزگذاری می کند. این می تواند مدل را به رمزگشایی و پردازش محتوایی فریب دهد که معمولاً توسط فیلترهای امنیتی آن مسدود می شود، مانند کدهای مخرب یا دستورالعمل هایی برای استخراج اطلاعات حساس.
انواع دیگر حملات شناسایی شده عبارتند از تکنیک Formatting Instructions، که در آن مدل فریب داده می شود تا با دستور فرمت کردن پاسخ ها به روشی خاص، مانند استفاده از بلوک های کد، خروجی های محدود تولید کند. تکنیک DAN یا هر کاری اکنون انجام دهید، با ترغیب مدل به اتخاذ یک شخصیت خیالی که همه محدودیتها را نادیده میگیرد، کار میکند.
چرا مهاجمان مدل های هوش مصنوعی را جیلبریک می کنند؟
تجزیه و تحلیل چهار انگیزه اصلی برای مدل های هوش مصنوعی جیلبریک را نشان داد:
- سرقت اطلاعات حساس به عنوان مثال، اطلاعات کسب و کار اختصاصی، ورودی های کاربر، و اطلاعات قابل شناسایی شخصی.
- تولید محتوای مخرب این می تواند شامل اطلاعات نادرست، سخنان مشوق نفرت، پیام های فیشینگ برای حملات مهندسی اجتماعی و کدهای مخرب باشد.
- عملکرد ضعیف هوش مصنوعی این می تواند بر عملیات تأثیر بگذارد یا دسترسی مهاجم را به منابع محاسباتی برای فعالیت های غیرقانونی فراهم کند. این امر توسط سیستم های غلبه کننده با ورودی های ناقص یا بیش از حد به دست می آید.
- تست آسیب پذیری های سیستم یا به عنوان یک “هکر اخلاقی” یا از روی کنجکاوی.
چگونه سیستم های هوش مصنوعی ایمن تر بسازیم
به گفته کارشناسان Pillar، تقویت دستورات و دستورات سیستم برای محافظت کامل از یک مدل هوش مصنوعی در برابر حمله کافی نیست. پیچیدگی زبان و تنوع بین مدل ها این امکان را برای مهاجمان فراهم می کند که از این اقدامات عبور کنند.
بنابراین، کسبوکارهایی که از برنامههای هوش مصنوعی استفاده میکنند باید موارد زیر را برای اطمینان از امنیت در نظر بگیرند:
- ارائه دهندگان تجاری را در اولویت قرار دهید هنگام استقرار LLM ها در برنامه های کاربردی حیاتی، زیرا دارای ویژگی های امنیتی قوی تری در مقایسه با مدل های منبع باز هستند.
- اعلانات را در سطح جلسه نظارت کنید برای شناسایی الگوهای حمله در حال تکامل که ممکن است هنگام مشاهده ورودی های فردی به تنهایی آشکار نباشند.
- تمرینات متناسب با تیم قرمز و انعطاف پذیری را انجام دهیدمخصوص برنامه هوش مصنوعی و تعاملات چند نوبتی آن، برای کمک به شناسایی زودهنگام شکاف های امنیتی و کاهش هزینه های آینده.
- راهحلهای امنیتی را بپذیرید که در زمان واقعی سازگار شوند با استفاده از اقدامات آگاه از زمینه که مدل-آشنایی هستند و با سیاست های سازمانی همسو هستند.
دور ساریگ، مدیرعامل و یکی از بنیانگذاران Pillar Security، در یک بیانیه مطبوعاتی گفت: «همانطور که به سمت عوامل هوش مصنوعی می رویم که قادر به انجام وظایف پیچیده و تصمیم گیری هستند، چشم انداز امنیتی به طور فزاینده ای پیچیده می شود. سازمانها باید با اجرای تمرینهای اختصاصی تیم قرمز و اتخاذ رویکرد “ایمن بر اساس طراحی” در فرآیند توسعه GenAI خود را برای افزایش حملات هدفمند هوش مصنوعی آماده کنند.
جیسون هاریسون، Pillar Security CRO، اضافه کرد: «کنترلهای استاتیک دیگر در این دنیای پویا با هوش مصنوعی کافی نیستند. سازمانها باید روی راهحلهای امنیتی هوش مصنوعی سرمایهگذاری کنند که بتوانند تهدیدات نوظهور را در زمان واقعی پیشبینی کرده و به آنها پاسخ دهند و در عین حال از سیاستهای حاکمیتی و سایبری خود حمایت کنند.»
منبع: https://www.techrepublic.com/article/genai-jailbreak-report-pillar-security/