به پیمایش اعتماد نکنید: عوامل AI را از اجرای کد متوقف کنید

نویسنده (ها): Tochukwu Okonkwor

در ابتدا منتشر شده در به سمت هوش مصنوعیبشر

دستیار کد AI شما را مجبور می کند تا کد های خطرناک را اجرا کنید- قطعه قطعه- و کارها فقط دوم را که پوشه را باز می کنید انجام می شود. این نحوه ادامه ایمن ماندن است.

چه اتفاقی می افتد اگر خطرناک ترین خطی که امروز می بینید این بود که آیا مطمئن هستید؟ سریع؟

داستان من

چند هفته پیش ، گروهی از مردم با گذراندن یک بررسی امنیتی با قابلیت هوش مصنوعی ، یک میکروسرویس را منتشر کردند که کوچک بود. من ایستادم و یادداشت های ساخت و ساز را در مورد راهپیمایی ساختمان در دفتر طراحی خود تماشا کردم و احساس کردم که این خارش دوباره: هیچ لبه سختی ندارد ، خوشایند بود ، اما مفید نبود. آزمایشی در مورد همان جریان با یک بازپرداخت اسباب بازی ، این استدلال را تأیید کرد – دستیار القا شد که به او اجازه داده شود که با یک پیمایش طولانی از ماده مفید ، کاری از پس زمینه انجام دهد ، و بیت خطرناک کاملاً خارج از قاب بود.

همین روند به زودی در پروژه دیگری که سال گذشته انجام می دادم دوباره کشف شد ، جایی که یکی از IDE های توسعه دهندگان برای انجام یک پرونده کار در هر زمان که یک پوشه باز شود بارگیری می شود. بدون هنرهای جادویی مخرب – بی دقتی و اعتبار. این یک درس سریع بود ، اما اخلاق داستان هنوز یکسان بود: دوران جدید هوش مصنوعی از مسائل امنیتی قدیمی تعالی نمی یابد. این فقط آنها را در زیر سطح دلپذیرتری می پوشاند.

چرا این مهم است

تیتر امروز آشکار است: دانشمندان یک حمله به اصطلاح دروغ در حلقه (LITL) را نشان دادند که باعث می شود یک عامل برنامه نویسی AI فکر کند که شما حقیقت را می گویید ، و سپس یک دستور مضر ایجاد می کند ، البته شما وارد می شوید ، و خطر زنجیره ای را به وجود می آورد (خواندن تاریک ، سپتامبر 15 ، 2025).
خواندن تاریک
در کار اصلی CheckMarx ، طول ، زمینه با دقت طراحی شده و مشکلات GitHub باز می تواند دستورات مخرب را در بالای برابر پوشش دهد. از این رو ، تصویب حتی در صورت عدم ایمن است (Checkmarx ، 15 سپتامبر 2025).
کماندار

در عین حال ، موضوع دیگری نشان می دهد که IDE شما ممکن است بخشی از مشکل باشد. به گفته هکر نیوز ، مکان نما ، چنگال کد VS ، با استفاده از هوش مصنوعی ، با فضای کاری Trust خاموش شده است. هر مخزن حاوی یک .vscode/tasks.json می تواند به طور پیش فرض به صورت کد اجرا شود. این کد در زیر حساب شما اجرا می شود (12 سپتامبر 2025).
اخبار هکر
آن را با دیگری ترکیب کنید ، و شما یک اثر خنک کننده دارید: عامل می تواند شما را به آن ترغیب کند. IDE می تواند این کار را از طرف شما انجام دهد.

و ، همانطور که ممکن است فکر کنید ، بخشی بله ، این فقط یک تزریق سریع است ، به عبارت دیگر. 2025 LLM 10 نفر برتر OWASP با شروع می شوند LLM01 تزریق سریع و LLM02 رسیدگی به خروجی ناامن. قاعده باستان درست است: ورودی بی اعتمادی هرگز نباید نیرویی باشد که بدون اقدامات شدید یک اقدام حساس انجام دهد (OWASP Genai ، 2025).
بنیاد OWASP
اما این پیچ و تاب است – انسان هنوز در حلقه است ، و این حلقه ای است که دروغ در آن می افتد.

Optoists خواهند گفت: سازها بهتر می شوند و انسان همیشه می تواند کل سریع را بخواند. احتیاط: پیمایش هیچ کنترلی نیست و پیش فرض گزینه ها هستند و زنجیره های عرضه از خطاهای نرم فراموش نشدنی هستند.

به پیمایش اعتماد نکنید: عوامل AI را از اجرای کد متوقف کنید — تصویر با استفاده از Dall-E و Canva ایجاد و ویرایش شده است

رفع شما در مراحل

در زیر مسیری کوتاه است که می تواند توسط تیم ها در این هفته تکمیل شود. به نظر می رسد مقاله ای است زیرا رفع یک ویژگی نیست بلکه یک عادت است.

اعتماد را دوباره روشن کنید (و آن را پین کنید). فعال کردن اعتماد به فضای کار در هر IDE با پیشرفت AI یا مشابه ، و تنظیم گزینه Open in Mode محدود در پوشه های غیرقابل اعتماد. هنوز هم بهتر: repos حسابرسی منحصراً. نکته: .vscode/tasks.json مانند کد اجرایی به نظر می رسد ، و این است.
عمل توسط نمایندگان دروازه بر خلاف Vibes. هنگامی که انسان قادر به دیدن دلتای خطرناک نباشد ، انسان در حلقه (HITL) کنترل نمی شود. عامل را تهیه کنید که یک برنامه اقدام کوتاه و ثابت حاوی دستور و هدف دقیق در یک جعبه مونوسپیس ارائه دهد. وقتی جعبه بیش از اندازه ثابت است ، از پذیرش مصوبات خودداری کنید. این باعث کاهش ترفند بالاتر از دفن آن می شود.
مسئولیت های تقسیم: ارائه در مقابل اجرا. عامل را در یک جعبه ماسه ای رندر (برنامه ، تفاوت ، طرح آزمایشی) داشته باشید و آن را با لیست های مختلف (سخت) مجاز اجرا کنید. این پیشنهاد نماینده است ؛ این اجرای توسط دونده است. OWASP این مورد را به LLM02 / LLM05 زیر ترجمه می کند: خروجی های محدود شده و زنجیره تأمین را ایمن کنید.
مدل ها و مصنوعات خود را برچسب بزنید. ترسیم نویسنده/مدل با نام فقط در خارج از مراکز عمومی ایده بدی است. پین به Shas بدون تغییر و تأمل به رجیستری خود. Palo Alto برای استفاده مجدد از فضای نام مدل برای نشان دادن دلیل اعتماد به نام ها ارائه می دهد.
تأیید یک دیدگاه کوچک را تأیید می کند. قبل از اجرای دستور RUN ، فقط حداقل مقدار تفاوت یا یک دستور واحد باید نمایش داده شود. بدون داستان ، بدون پیمایش ، نه ایموجی ، نه بیشتر و نه کمتر. در صورتی که عامل قادر به نمایش تفاوت نباشد ، قابل اجرا نیست. نکته: دوره های مرور مختصر باعث کاهش خستگی و موفقیت در مهندسی اجتماعی می شود.
منطقه چلپ چلوپ. با کلیدهای ویژه API ، اسرار پروژه و سوئیچ های کشتار ، یک محیط عامل کم مصرف و یکبار مصرف ایجاد کنید. تمام تماس های خروجی و لمس پرونده را ضبط کنید. اگر یکی از آنها اشتباه شود ، شما یک جعبه ماسه ای را پرورش می دهید- نه لپ تاپ.
از تمرینات مخالف استفاده کنید. تست تست های تیم بنفش بنفش بنفش ، دستورالعمل های تزریق شده در بلیط ها ، رژیم ها و مسائل را دقیقاً مانند مطالعه LITL پنهان کنید و زمان به وقت و زمان را برای کشتن اندازه گیری کنید. عادت های تأیید آهسته و محتاطانه باید پاداش داده شود. اگر ما به آن نرسیدیم ، این هزینه هزاران نفر برای ما خواهد بود. این اولین چیزی بود که توسط مته کشف شد.
آدرس: آیا مطمئن هستید که بیشتر شبیه رابط کاربری است نه یک کادر انتخاب؟ سریع تأیید خود را ایجاد کنید: فونت ثابت با کنتراست بالا ، تک صفحه. مؤثرترین سریع بیشتر فرم رضایت جراحی است و نه یک صحبت PEP. با کدام یک از اول ، سیاههها یا دسترسی ها را از بین می برید؟

تصویر با استفاده از Dall-E و Canva ایجاد و ویرایش شده است

افسانه های سریع

“انسان شبکه ایمنی است.” آنها هستند – تا اینکه پاییز با متن دوستانه روی شبکه با یک پتو پنهان نشود (خواندن تاریک ، 15 سپتامبر 2025).
خواندن تاریک

“ماسهبازی کافی است.” فقط در مورد جعبه ماسه ای حاوی اسرار ، نشانه ها و سیاهههای مربوط به شما در صورت داشتن ماسهبازی.
“منابع قابل اعتماد حاکی از مدل های ایمن هستند.” نام ها قابل ربودن هستند. پین توسط هش و آینه.

لیست چک

قبل از ادغام امروز ، این را اسکن کنید:

فضای کاری اعتماد در
نماینده “برنامه عمل” کاملاً تمیز می کند
دستورات کوتاه و پین شده اند
مدل توسط sha می کشد
فقط کلیدهای پرتاب
گزارش ها متمرکز و بررسی شده است.

این هفته چه کاری باید انجام شود

روز سه شنبه امنیت هوش مصنوعی خود را بسازید. در IDS ، حالت های اعتماد را انجام دهید و یک تک تک پانل را ضمیمه کنید ، آن را مانند پنج نفر برتر آینه خارجی با هش انجام دهید. سپس یک تمرین فریبنده 30 دقیقه ای انجام دهید-یکی از دستورالعمل ها را در یک شماره پنهان کنید و ببینید تیم شما آن را دریافت می کند؟ اگر مصوبات احساس عجله کنید (حلقه را به طور هدفمند کاهش دهید).

خواندن بیشتر

Dark Reading (15 سپتامبر 2025)-گزارش در مورد ضرب و شتم “دروغ در حلقه”.
CheckMarx (15 سپتامبر 2025) – تحقیقات اولیه – اثبات مفهوم در LITL با الگوهای بای پس HITL.
News Hacker (12 سپتامبر 2025) – تنظیمات اعتماد پیش فرض CURSOR IDE اجازه می دهد تا وظایف را به صورت سکوت در باز کردن پوشه انجام دهد.
OWASP Genai Top 10 (2025) – زمین LLM01/LLM02 برای کنترل سریع تزریق/خارج از خانه.

(برای یک آغازگر عمیق تر در مورد خطر تزریق سریع ، به این توضیح دهنده متوسط از 48 ساعت گذشته مراجعه کنید: متوسط (14 سپتامبر 2025).

CTA

نظرات خود را در زیر نظر دهید. برای اطلاعات بیشتر مشترک شوید.

خیلی ممنون از خواندن این مطلب! این کلمه را برای دوستان خود پخش کنید تا بتوانند ایمن باشند. مشترک شوید و در Medium ، X ، LinkedIn ، Reddit ، Soutack ، GitHub ، – Tag AI Advance و موارد دیگر برای یادگیری هک های امنیتی جدید AI و به اشتراک گذاشتن با یک دوست یا دوست خود ، مشترک شوید و برای جلوگیری از ترسیدن بعدی خود به اشتراک بگذارید.

اکنون از نویسنده امنیتی AI جنگل دوستانه خود ، اکنون خداحافظی کنید.

منتشر شده از طریق به سمت هوش مصنوعی

منبع: https://towardsai.net/p/machine-learning/dont-trust-the-scroll-stop-ai-agents-from-running-code