نوآوری در تجزیه و تحلیل: افزایش کیفیت داده با GenAI


نویسنده(های): یوناس دیکمن

در ابتدا منتشر شد به سمت هوش مصنوعی.

تجزیه و تحلیل داده ها در سال های اخیر به محرک اصلی موفقیت تجاری تبدیل شده است. توانایی تبدیل مجموعه داده های بزرگ به بینش عملی می تواند به معنای تفاوت بین یک کمپین موفق و فرصت های از دست رفته باشد. با این حال، کیفیت داده هنوز یک چالش بزرگ است: اگر داده‌هایی که به یک مدل وارد می‌شوند فاقد کیفیت/سازگار باشند، خروجی حاصل نیز کیفیت پایینی خواهد داشت. این به خوبی با ضرب المثل معروف “آشغال در، زباله بیرون” نشان داده شده است.

اعتبار تصویر: پیکسابای

اگرچه هوش مصنوعی اغلب در کانون توجه است، تمرکز بر پایه های داده قوی و استراتژی های داده موثر اغلب نادیده گرفته می شود. در این مقاله، ما بررسی خواهیم کرد که چگونه هوش مصنوعی می تواند مستقیماً این پایه ها را از طریق:

  1. هماهنگ سازی خودکار داده ها
  2. برچسب گذاری و طبقه بندی پویا
  3. تولید داده های مصنوعی

به جای پرداختن به داده های ناقص، از GenAI برای افزایش کیفیت داده ها از همان ابتدا استفاده می کنیم. این رویکرد همچنین زمینه را برای کاربردهای موثرتر هوش مصنوعی در آینده فراهم می کند.

ظهور هوش مصنوعی (Generative).

بسیاری از صنایع به لطف فناوری های هوش مصنوعی دستخوش تغییرات قابل توجهی شده اند. برای مثال، در بازاریابی، هوش مصنوعی به سازمان‌ها کمک می‌کند تا بینش‌های عملی را از مجموعه داده‌های گسترده استخراج کنند، که منجر به کمپین‌های هدفمند و تعامل بهتر با مشتری می‌شود. طبق چرخه هایپ گارتنر، GenAI در اوج است و پتانسیل خود را برای تغییر تجزیه و تحلیل نشان می دهد.¹

چرخه هایپ برای فناوری های نوظهور 2023 (منبع: گارتنر)

با وجود پتانسیل هوش مصنوعی، کیفیت داده های ورودی بسیار مهم است. داده‌های نادرست یا ناقص می‌توانند نتایج را تحریف کنند و ابتکارات مبتنی بر هوش مصنوعی را تضعیف کنند و بر نیاز به داده‌های پاک تأکید کنند. برای بازاریابان و مبتکران دیجیتال، مدیریت داده‌های متناقض از منابع مختلف می‌تواند مانع بزرگی برای باز کردن پتانسیل کامل هوش مصنوعی باشد.

تغییر پارادایم: استفاده از هوش مصنوعی برای افزایش کیفیت داده ها

اگر بتوانیم طرز فکر خود را در مورد کیفیت داده ها تغییر دهیم چه؟ به جای اینکه آن را پیش نیاز استفاده از هوش مصنوعی بدانیم، می‌توانیم از هوش مصنوعی برای بهبود کیفیت داده‌ها استفاده کنیم. با استفاده از GenAI، می‌توانیم فرآیندهای پاکسازی داده‌ها را ساده و خودکار کنیم:

پاک کردن داده ها برای استفاده از هوش مصنوعی؟ پاک کردن داده ها از طریق GenAI!

سه راه برای استفاده از GenAI برای داده های بهتر

بهبود کیفیت داده ها می تواند کاربرد آن را آسان تر کند یادگیری ماشینی و هوش مصنوعی برای پروژه های تحلیلی و پاسخ به سوالات تجاری. در اینجا سه ​​راه برای استفاده از ChatGPT² برای تقویت پایه های داده وجود دارد:

شماره 1 هماهنگ سازی: پاک کردن داده ها از طریق هوش مصنوعی

یک چالش اصلی در تجزیه و تحلیل، حفظ کیفیت و یکپارچگی داده ها است. الگوریتم‌ها می‌توانند به‌طور خودکار داده‌ها را با استفاده از تکنیک‌هایی مانند تشخیص پرت و ناهنجاری تمیز کرده و پیش پردازش کنند. GenAI اکنون می تواند با شناسایی و رفع ناهماهنگی ها به نقشه برداری و تمیز کردن مستقیم داده ها کمک کند.

به عنوان مثال، یک سازمان مراقبت بهداشتی که داده‌های بازار را از منابع مختلف جمع‌آوری می‌کند ممکن است با مشکلات نام‌گذاری متفاوت مواجه شود.

مثال استفاده سریع شماره 1. تصویر توسط نویسنده

GenAI می تواند به طور خودکار این اختلافات را شناسایی و تصحیح کند و در نتیجه یک نقشه برداری تمیز و قابل اعتماد ایجاد کند مجموعه داده. این نه تنها باعث صرفه جویی قابل توجهی در زمان تحلیلگران در بررسی دستی داده ها می شود، بلکه نیاز به عبارات منظم پیچیده با روش های سنتی را نیز از بین می برد.

مورد استفاده شماره 1 پاسخ کوچک GPT-4o. تصویر توسط نویسنده

برچسب شماره 2: امکان استفاده از داده‌های غیرقابل استفاده قبلی

سازمان ها اغلب دارای حجم زیادی از داده ها هستند که به دلیل کیفیت پایین یا عدم برچسب گذاری استفاده نمی شود. GenAI می‌تواند با خوشه‌بندی خودکار نقاط داده مشابه و استنباط برچسب‌ها از داده‌های بدون برچسب، به دست آوردن بینش‌های ارزشمند از منابع غیرقابل استفاده قبلی کمک کند.

پردازش زبان طبیعی (NLP) نمونه ای از مواردی است که روش های سنتی می توانند با داده های متنی پیچیده مبارزه کنند. به عنوان مثال، استخراج جزئیات عددی از مقالات بخش بالینی می تواند گمراه کننده باشد اگر اعداد به مقادیر واقعی اشاره نکنند. اعلان‌های GenAI می‌توانند چنین چالش‌هایی را به طور موثر برطرف کنند.

مثال استفاده سریع شماره 2. تصویر توسط نویسنده

نتیجه در این مورد ساده اما دقیق است. استخراج عددی تنها نمونه ای از این است که چگونه برچسب زدن می تواند قدرتمند باشد. واضح است که GenAI ابزاری قوی برای استخراج جزئیات یا طبقه بندی های دقیق از داده های متنی است.

مورد استفاده شماره 2 پاسخ کوچک GPT-4o. تصویر توسط نویسنده

#3 ایجاد: استفاده از LLM برای تولید داده های نمونه

GenAI همچنین می تواند داده های مصنوعی را برای آموزش مدل های هوش مصنوعی تولید کند. مدل‌های زبان بزرگ (LLM) می‌توانند داده‌های نمونه واقعی را تولید کنند و به رفع کمبود داده در زمینه‌هایی که در دسترس بودن داده‌ها محدود است کمک کنند.

برای مثال، یک شرکت داروسازی که دارویی را برای یک بازار خاص توسعه می‌دهد، می‌تواند از LLM برای ایجاد پروفایل‌های مصنوعی بیمار، تاریخچه پزشکی و نتایج درمان استفاده کند. این رویکرد نه تنها تنوع داده ها را افزایش می دهد، بلکه نگرانی های مربوط به حریم خصوصی مربوط به داده های حساس بیمار را نیز کاهش می دهد.

مثال استفاده سریع شماره 3. تصویر توسط نویسنده

این رویکرد نه تنها تنوع داده ها را افزایش می دهد، بلکه نگرانی های مربوط به حریم خصوصی مربوط به اشتراک گذاری اطلاعات حساس بیمار را نیز برطرف می کند. همچنین می‌توان آن را به برنامه‌های کاربردی دیگر مانند هدف قرار دادن مخاطبان برای کمپین‌های بازاریابی، ایجاد نمونه‌هایی برای کشف تقلب و موارد دیگر تعمیم داد.

مورد استفاده شماره 3 پاسخ کوچک GPT-4o. تصویر توسط نویسنده

خودکارسازی افزایش کیفیت داده ها از طریق API

برای استفاده کامل از پتانسیل GenAI برای بهبود کیفیت داده، ادغام این فناوری به روشی خودکار و بدون درز بسیار مهم است. کپی دستی مجموعه داده ها به درخواست ها و پردازش پاسخ ها عملی نیست.

استفاده از APIها، مانند API ChatGPT، در محیط کدنویسی شما می‌تواند این فرآیند را با افزودن بهبود کیفیت داده‌های مبتنی بر هوش مصنوعی مستقیماً در جریان‌های کاری شما ساده‌تر کند. برای راهنمایی در مورد استفاده از API OpenAI با Colab یا Databricks، می توانید به مقاله دیگر من مراجعه کنید. نتایج حاصل از این درخواست‌های خودکار را می‌توان مستقیماً در ذخیره‌سازی داده‌های شما نوشت.

نمونه جریان پردازش: استفاده از آجرهای داده برای برقراری ارتباط با APIها برای بهبود داده ها. تصویر توسط نویسنده

هماهنگ سازی خودکار، برچسب گذاری، و تولید داده ها

با تأسیس خطوط لوله داده، سازمان ها می توانند با ورود داده های جدید به سیستم هایشان از GenAI استفاده کنند. به عنوان مثال، هنگامی که مجموعه داده های جدید وارد می شوند، API می تواند به طور خودکار الگوریتم های هماهنگ سازی داده ها را اعمال کند یا الگوهایی را برای استنتاج برچسب ها شناسایی کند. این نیاز به پاکسازی و پیش پردازش دستی داده ها را برطرف می کند و مهندسان داده را آزاد می کند تا روی کارهای ارزشمندتر تمرکز کنند. اگرچه GenAI نویدبخش است، مهم است که مسائل مربوط به حریم خصوصی داده ها را با API های عمومی تشخیص دهیم.

ادغام API در خط لوله داده شما را قادر می سازد مجموعه داده های متنوع و واقعی را مستقیماً در نوت بوک آموزشی خود ایجاد کنید. API همچنین می‌تواند داده‌های مصنوعی ایجاد کند تا شکاف‌های موجود در مجموعه داده‌های موجود را پر کند و از توسعه مدل هوش مصنوعی قوی‌تر پشتیبانی کند. این تولید خودکار داده نه تنها تحقیقات را سرعت می بخشد، بلکه نگرانی های مربوط به حریم خصوصی را نیز به حداقل می رساند.

نتیجه گیری

ادغام API های GenAI در جریان های کاری با کیفیت داده، راهی قدرتمند برای تمیز کردن، برچسب گذاری و تولید داده ها به صورت خودکار ارائه می دهد. این یکپارچه سازی یکپارچه به سازمان ها کمک می کند تا به طور کامل از قابلیت های GenAI بدون مداخله دستی استفاده کنند و مدیریت داده ها را کارآمدتر کرده و کیفیت کلی داده ها را بهبود بخشد.

به طور خلاصه، تقاطع هوش مصنوعی و کیفیت داده نقطه عطف مهمی در تجزیه و تحلیل است. توانایی GenAI برای افزایش کیفیت داده ها و ارائه بینش های عملی، پتانسیل تغییر صنعت را دارد. با بازنگری در رویکردهای سنتی و استفاده از هوش مصنوعی برای افزایش داده ها، سازمان ها می توانند فرصت های جدیدی را برای نوآوری و رشد باز کنند. همانطور که به جلو می رویم، واضح است که آینده تحلیل ها توسط کسانی شکل خواهد گرفت که از قدرت GenAI استقبال می کنند.

یوناس دیکمن – مدیوم

نوشته های یوناس دیکمن را در مدیوم بخوانید. رهبر تیم @ philips | علاقه مند به علم داده، کار چابک و دیجیتال…

medium.com

امیدوارم برای شما مفید باشد. افکار خود را به من اطلاع دهید! و با خیال راحت به لینکدین متصل شوید https://www.linkedin.com/in/jonas-dieckmann/ و/یا مرا در اینجا در Medium دنبال کنید.

مراجع

[1] گارتنر (2023): چرخه هایپ برای فناوری های نوظهور
https://www.gartner.com/en/newsroom/press-releases/2023-08-16-gartner-places-generative-ai-on-the-peak-of-inflated-expectations-on-the-2023- چرخه هیپ برای فناوری های نوظهور

[2] OpenAI – ChatGPT: https://chatgpt.com/

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/machine-learning/innovations-in-analytics-elevating-data-quality-with-genai