استفاده از LLM برای شناسایی گفتگوهای بازیگران تهدید


تحلیل سبک سنجی شامل بررسی سبک های نوشتاری با تجزیه و تحلیل ویژگی هایی مانند واژگان، ساختار جمله، محاوره ها، نحو و دستور زبان است. به طور سنتی در مطالعات ادبی و زبان‌شناسی قانونی استفاده می‌شود.

اخیراً برای نسبت دادن ارتباطات ناشناس به عوامل تهدید خاص اقتباس شده است. با شناسایی گرایش‌های زبانی منحصربه‌فرد و اثرانگشت، می‌توان حجاب را از روی بازیگران تهدید کنار زد.

مدل‌های زبان بزرگ (LLM) منبعی عالی برای کمک به کارهای سبک‌سنجی هستند. LLM ها بر روی مجموعه داده های عظیم آموزش دیده اند و برای درک جنبه های ظریف تر زبان شناسی عالی هستند. LLM ها همچنین در تشخیص الگوهای خاص در متن عالی هستند. ما می‌توانیم از LLM برای کمک به شناسایی سریع محتوای خاص در متن مانند زبان عامیانه، کد و نویسه‌گردانی استفاده کنیم.

نویسه‌گردانی فرآیند نمایش یا قصد نمایش یک کلمه، عبارت یا متن در یک خط یا سیستم نوشتاری متفاوت است. این می تواند به ارائه بینش بهتر در مقایسه با ترجمه ماشینی مانند Google Translate و DeepL کمک کند.

به عنوان مثال، کلمه “nabiraem” در چت های خصوصی استفاده می شود. این کلمه به صورت ماشینی ترجمه نمی‌شود، بنابراین از آن برای دیدن اینکه آیا فردی بومی روسی صحبت می‌کند استفاده می‌شود. وقتی از Google Translate ترجمه می‌خواهیم، ​​”Dialable” دریافت می‌کنیم.

مرتبط:اهمیت رهبری ارشد در ایجاد فرهنگ داده‌های عصر هوش مصنوعی

هنگام استفاده از جدیدترین مدل LLM O1-preview ChatGPT، “nabiraem” به عنوان ترجمه کلمه روسی “набираем” نشان داده می شود که زمان حال جمع اول شخص فعل “набирать” (nabirat’) است. این فعل بسته به متن معانی مختلفی دارد، از جمله:

• برای شماره گیری (شماره تلفن)• برای تایپ یا وارد کردن (متن روی صفحه کلید)

• جمع آوری یا جمع آوری

• برای استخدام (افراد)

• برای به دست آوردن یا جمع آوری (وزن، سرعت، و غیره)

بنابراین، «نبیرام» به «ما در حال شماره‌گیری»، «ما در حال تایپ کردن»، «ما در حال جمع‌آوری هستیم» یا «در حال استخدام هستیم» ترجمه می‌شود، بسته به زمینه‌ای که در آن استفاده می‌شود. در مورد ما، زمینه خاص «ما در حال استخدام هستیم» است.

نویسه‌گردانی تنها چیزی نیست که می‌توانیم از LLM استفاده کنیم. بیایید نگاهی دقیق‌تر بیندازیم به اینکه چگونه LLM‌ها می‌توانند به ما کمک کنند تا دو تبلیغ باج‌افزار به‌عنوان سرویس (RaaS) را در یک انجمن روسی‌زبان سطح بالا متصل کنیم.

تجزیه و تحلیل دو تبلیغ غیرقانونی برای یک نویسنده معمولی

شباهت ها در واژگان فنی تبلیغات

هر دو باج افزار اول و دوم با Rust نوشته شده اند. هر دو دارای قابلیت های فنی تقریباً یکسانی هستند، از جمله:

  • هر دو تبلیغات باج افزار ادعا می کنند که از الگوریتم های رمزگذاری Twofish و XChaCha12 استفاده می کنند. هر دو آگهی از ECIES (Elliptic Curve Integrated Encryption Scheme) برای محافظت در برابر نشت کلید استفاده می کنند.

  • هر دو باج افزار از چندین روش رمزگذاری مانند هدر، حالت هوشمند (هش کردن ابرداده) و رمزگذاری کامل پشتیبانی می کنند.

  • هر دو تبلیغات تاکید می‌کنند که بدافزار آنها سیستم‌عامل‌های Windows و ESXi را هدف قرار می‌دهد و هر نوع باج‌افزار از تکنیک‌های پیشرفته‌ای مانند نمایه‌سازی خودکار فایل‌ها، افزایش امتیازات و رمزگذاری دگرگونی باینری‌ها در ESXi استفاده می‌کند.

مرتبط:چگونه هوش مصنوعی کارگزاران و اپراتورهای هواپیمایی خصوصی را به هم متصل می کند

کانال های مورد استفاده برای پردازش از Rust Framework Tokio به Flume ارتقا یافته اند. اینها به چارچوب هایی برای مدیریت عملیات ناهمزمان بر روی یک شبکه اشاره دارند.

مدل نمایه سازی فایل برای پردازش ناهمزمان تنظیم شده است. یک مکانیسم پشتیبان جدید برای کلیدهای رمزگذاری/رمزگشایی اضافه شد و به روز رسانی شامل یک “morpher” رایگان برای فایل های ویندوز است. مشخص نیست که “morpher” دقیقا چیست، این می تواند یک رمزارز باینری اختصاصی باشد. رمزارز قطعه‌ای از نرم‌افزار است که یک فایل باینری را درهم می‌زند تا به آن کمک کند تا از تشخیص AV جلوگیری کند.

تحلیل زبانی عمیق تبلیغات

هر دو پست به زبان روسی درست گرامری نوشته شده اند، حتی اگر به شدت انگلیسی باشد. پست‌ها از واژگان فنی سطح بالایی استفاده می‌کنند و حاوی اشتباهات رایجی نیستند که افراد غیر بومی ممکن است مرتکب شوند، مانند استفاده نادرست از حروف بزرگ، عبارت‌های نامناسب، یا صرف نادرست افعال.

به عنوان مثال، ساختار عبارت از الگوهای معمول زبان روسی پیروی می کند. برای مثال، نویسنده(های) از عباراتی مانند “ключ шифруется каждый раз с защитой ECIES” (کلید هر بار با حفاظت ECIES رمزگذاری می شود) یا “собственный алгоритм” (الگوریتم سفارشی) استفاده می کند.

مثال دیگر کلمه “full” است که به روسی به عنوان “fullый” ترجمه می شود، اما در اینجا مانند “фулл” نوشته می شود که کلمه انگلیسی انگلیسی است اما با حروف روسی که اصطلاح رایج است.

در این پست‌ها همچنین به کشورهای CIS (СНГ) و BRICS اشاره شده است که یک زمینه ژئوپلیتیکی و اقتصادی مرتبط با جوامع روسی زبان آشناست. این نیز در این مرحله دانش رایج جرایم سایبری است که شامل CIS به عنوان یک محدودیت هدف برای معرفی خود به عنوان روسی است.

شباهت های زیادی بین این دو پست از نظر محتوای فنی، ساختار و سبک نوشتاری وجود دارد که می تواند نشان دهد که یک فرد هر دو را نوشته است.

سوال این است که آیا پوستر دوم کد منبع را از پوستر اول خریداری کرده است یا مجوز؟ آیا فروشنده اول پشت برند فروشنده دوم است؟ اگر فروشنده دوم کد را از اولی خریداری کرده یا مجوز می دهد، جالب است اما جدید نیست.

ما اخیراً شاهد این اتفاق افتادیم، با سایر تبلیغات RaaS مانند Cyclops/Knight/RansomHub که در نهایت به فروش می رسند و بسیار موفق می شوند و تهدیدی بزرگ برای مشاغل و افراد در سراسر جهان هستند.





منبع: https://aibusiness.com/nlp/using-llms-to-identify-threat-actor-conversations