نویسنده(ها): پاول زاپولسکی
در ابتدا منتشر شد به سمت هوش مصنوعی.
مهم ترین عدد یا در مورد متریک محصول اصلی
محصولی را تصور کنید که هر روز از آن استفاده می کنید – یک فروشگاه آنلاین، یک سرویس پخش جریانی یا یک بازی. چگونه شرکت ها آنها را بهبود می بخشند؟ چه چیزی را اضافه، حذف یا کجا منابع بیشتری سرمایه گذاری کنیم؟ برای پاسخ به این سوال در یک محیط سازمانی، یک معیار اصلی محصول وجود دارد.
در این مقاله، درباره چیستی آن، چگونگی ارتباط آن با KPIها، انجام تستهای فشرده A/B و سایر شاخصها بحث خواهیم کرد.
تعریف متریک اصلی یا معیار AB پذیرش
تابعی است که ارزش کلیدی محصول را اندازه گیری می کند. این محصول ماهیت محصول و تأثیر آن بر تجارت را بدون در نظر گرفتن بخش – تجارت الکترونیک، فینتک، یا گیمدف تجسم میدهد. برای اینکه متریک کار کند، باید دارای چهار ویژگی مهم باشد:
- کیفیت – نشان می دهد که محصول چقدر برای مشتری خوب است. به عنوان مثال، مدت زمانی که کاربران در سایت صرف می کنند یا هر چند وقت یکبار بازگشت می کنند (همه اجزایی که حفظ را تشکیل می دهند).
- سودآوری – پول را فراموش نکنید! به عنوان مثال، محصول باید از طریق کلیک بر روی تبلیغات درآمد ایجاد کند. معیار باید این را منعکس کند.
- قابلیت اندازه گیری – این ویژگی برای شرکتهای بزرگی که هدفشان افزایش تخصص خود در دستههای داده است، مرتبط است. بنابراین، برای انجام تست های A/B و تصمیم گیری بر اساس آن، معیار باید به راحتی قابل اندازه گیری باشد.
- تفسیر پذیری – مهم است که این شاخص نه تنها برای متخصصان داده بلکه برای بخش تجاری نیز قابل درک باشد. بنابراین، باید با KPI ها و گزارش های مالی مرتبط باشد. اگر توضیح معیار دشوار باشد، ممکن است منجر به تصمیمات نادرست شود.
مشکلات با متریک کلیدی
درک این نکته مهم است که متریک انتگرال در درجه اول برای شرکت های سازمانی مرتبط است. با توجه به این ویژگی، تعدادی از مشکلات را می توان انتظار داشت:
- تعدد تست: وقتی به چند شاخص به طور همزمان نگاه می کنیم، احتمال خطا در تست A/B افزایش می یابد.
- چگالی تست کم: نیاز به افزایش آن وجود دارد، به خصوص زمانی که از تکنیک های ساده ای مانند CUPED استفاده می شود.
- نحوه ارزیابی تأثیر در موقعیت های بحث برانگیز نامشخص است: به عنوان مثال، اگر تعامل افزایش یابد اما سودآوری کاهش یابد. چه باید کرد؟
بیایید آخرین وضعیت را با یک مثال تجزیه کنیم.
فرض کنید وب سایتی داریم که در آن تبلیغات می گذاریم. اگر ما آن را به طور کامل با این بنرهای تبلیغاتی اسپم کنیم، معیار درآمد ممکن است افزایش یابد: مردم به سادگی نمی توانند از کلیک کردن روی آنها اجتناب کنند. با این حال، کاربرانی که این موضوع را آزاردهنده می دانند، شروع به ترک خواهند کرد. در نتیجه، در دراز مدت، محصول از بین می رود. بنابراین، حفظ تعادل بین سودآوری یک رسانه خاص و کیفیت آن مهم است.
معیار اصلی همچنین برای حفظ تعادل بین کیفیت محصول و کسب درآمد در حین نظارت مفید است.
تصور کنید ما یک پچ را در 14 جولای منتشر کردیم، و معلوم شد که بد بود: در نتیجه، ما پیشنهادات را به کاربران ارسال کردیم. این به این دلیل اتفاق افتاد که ما فراموش کردیم یک تست A/B انجام دهیم. در 20 جولای، وقتی دیدیم که معیار ما از فاصله اطمینان خارج شد، متوجه شدیم که مشکلی وجود دارد.
اما موافق باشید: اندازه گیری همه شاخص ها با فواصل اطمینان و پنجره های چرخان عجیب است. در غیر این صورت، هشدارهای تصادفی در برنامه اجتناب ناپذیر خواهد بود.
بنابراین، حتی در اینجا، متریک حساس انتگرال وجود ندارد.
در جستجوی یک متریک | چرا نگاه کردن به GMV بد است؟
GMV (ارزش ناخالص کالا) ارزش کل همه کالاهای فروخته شده روی پلت فرم در یک واحد زمان است.
اگر GMV را به عنوان معیار کلیدی انتخاب کنیم، به راحتی میتوانیم راهحلهایی ارائه کنیم که بازدهی دارند کوتاه مدت نتیجه می شود اما تبدیل می شود استراتژیک نامطلوب
مثلاً فرض کنید وب سایتی داریم که دمپایی می فروشد 🩴. ما میتوانیم پیشنهادات تصادفی زیادی را انباشته کنیم – از فروشگاههای مختلف، با تکههای مختلف. بلافاصله پس از آن، همانطور که ما انتظار داریم، مردم شروع به خرید بیشتری می کنند زیرا مجموعه ما غنی تر است. در ماه اول، بنابراین GMV را افزایش خواهیم داد. با این حال، پس از آن معلوم می شود که دمپایی ها بی کیفیت هستند. بنابراین، تبدیل دوم برای همان مشتری بعید است 😞
یک راه حل معقول استراتژیک، حرکت به سمت بهبود کیفیت محصول است: تنظیم فیلتر و سایر شاخص ها. بله، ما GMV را کاهش خواهیم داد. اما کاربر به عنوان مثال با یک اسباب بازی 🔞 در صفحه دمپایی مواجه نمی شود.
در جستجوی متریک اصلی | پرسش و پاسخ
حساسیت متریک اصلی چقدر باید باشد؟
0.5-0.8x نسبت به یک کلیک (یعنی به اندازه کافی حساس).
چه توزیعی لازم است؟
میانگین ها به طور معمول یا ورود به سیستم نرمال توزیع می شوند.
متریک چگونه باید با ARPU، Retention و DAU (یعنی شاخص های مالی و محصول) مرتبط باشد؟
همبستگی > 0.7 در فواصل طولانی، به طوری که هیچ موقعیتی وجود ندارد که شاخصهای سود یا مشارکت افزایش یابد در حالی که معیار کلیدی کاهش مییابد.
تدوین و آموزش متریک اصلی
چگونه این معیار اصلی را پیدا می کنید؟ می توان آن را به عنوان یک مشاهده کرد یادگیری ماشینی مشکل ما معیارهای کوچک زیادی را در نظر می گیریم – کلیک ها، زمان حضور در سایت، تراکنش ها و غیره – و سعی می کنیم یک تابع واحد از آنها ایجاد کنیم که به تغییرات محصول حساس باشد. برای این، یک روش کلاسیک استفاده می شود – رگرسیون خطی. اگر شما، مانند گربه زیر، کمی ریاضی بیشتری می خواهید، فرمول به شکل زیر است:
چنین متریک حساسی نامیده می شود نورث استار ✨✨✨
چگونه NorthStar را آزمایش و آموزش دهیم؟
با استفاده از a مجموعه داده از آزمایشات معمولاً شامل 20٪ تست های AA، 30٪ تست های بهبود و 50٪ تست های تحقیرکننده است. دو مورد اخیر را در زیر توضیح خواهم داد.
- تست بهبود: آزمایشی که در آن بهبود در تمام معیارهای کلیدی محصول به وضوح قابل مشاهده است یا وضعیتی با شاخص های متوسط در شروع اما نتایج بالا پس از انتشار (به عنوان مثال، اگر یک ویژگی به طور اساسی محصول را بهبود بخشد).
- آزمون تحقیرآمیز: آزمایشی که در آن یک ویژگی را بهطور مصنوعی از تولید برای یک گروه متمرکز حذف میکنیم تا کاهش شاخصهای کلیدی را تشخیص دهد. به عنوان مثال، ما کیفیت بارگذاری صفحه را کاهش می دهیم یا کیفیت آن را پایین می آوریم ML مدل ها سپس مشاهده می کنیم که کاربر چقدر ناراضی می شود 😡.
چگونه می توان تأیید کرد که متریک کار می کند؟
- از Cross-Validation استفاده کنید
80 درصد از داده ها را برای آموزش و 20 درصد را برای آزمایش در نظر بگیرید. مهم است که تست های تحقیرآمیز به رنگ قرمز (بد) و تست های بهبود به رنگ سبز (خوب) نشان داده شوند. همچنین، باید اطمینان حاصل کنید که امتیاز Z ارزش کم است این معیاری است که به درک میزان انحراف نتیجه از میانگین کمک می کند.
2. اطمینان حاصل کنید که متریک با شاخص های واقعی کسب و کار مرتبط است
به عنوان مثال، درآمد یا شاخص های کلیدی عملکرد (KPI). تصور کنید متریک را آزمایش کرده اید و همه چیز عالی به نظر می رسد، اما چند ماه بعد مشخص شد که آزمایش ها در واقع در جهت مخالف اهداف شرکت حرکت می کردند. بنابراین، مهم است که متریک به خوبی همبستگی دارد با شاخص های کسب و کار
3. از بین بردن خطر بیش از حد
معیار نباید خیلی به یک پارامتر وابسته باشد. ثبات بسیار مهم است: با تغییرات جزئی در پارامترها، شاخص کلیدی باید حداقل نوسان داشته باشد.
4. *پیکربندی قابلیت پیش بینی (اختیاری)
این یک شاخص اضافی است – برای نوابغ ML در شرکت های بزرگ.
روشی وجود دارد که با استفاده از آن به بهبود دقت تست های A/B کمک می کند پیش بینی کننده ها – شاخص هایی که به پیش بینی نتیجه آزمون کمک می کنند. مهم است که بررسی کنید متریک را چقدر می توان پیش بینی کرد. این بدان معنی است که در آزمایش مصنوعی، جایی که نمی توان مشتریان را به طور واضح به گروه های مختلف تقسیم کرد، از استنتاج علی تکنیک پیش بینی تاثیر تغییرات
بآماده باشید: حتی پس از تکمیل تمام مراحل، پیش بینی متریک ممکن است دشوار باشد. و این یک سیگنال است که چیزی باید بهبود یابد.
مدل ایده آل برای نورث استار
- بر اساس رگرسیون خطی:
2. همه اجزای متریک (کلیکها، زمان، تبدیلها) باید کاملاً مثبت یا کاملاً منفی باشند. به عنوان مثال، اگر بهبود یک معیار (مثلاً افزایش کلیک ها) کیفیت محصول را افزایش دهد، یک جزء مثبت است. آن را با علامت مثبت علامت گذاری کنید. اگر شخصی از برنامه خارج شود و عمل تبدیل را ادامه ندهد – منهای.
3. هر چه مولفه های متریک همبستگی کمتری داشته باشد، بهتر است. برای فرمول بندی بهتر NorthStar، باید کل فضای تجاری محصول خود را با پتویی از شاخص های مختلف پوشش دهید. هر چه زوایای متریک ما از یکدیگر دورتر باشد، واقعیت را با دقت بیشتری منعکس می کند.
وقتی همه چیز به آرامی پیش می رود و تیم شما وقت دارد، چرا به آنها اجازه ندهید این کار را انجام دهند – و سپس برای کسب افتخار در کنفرانس شرکت کنند؟
آقای زاپولسکی
بنابراین، نتیجه چیست؟
استفاده از متریک اصلی چندین مزیت دارد.
- تست فشرده A/B: حساسیت آن امکان تست فشرده A/B را فراهم می کند و شدت نشانگر را 5 تا 7 برابر افزایش می دهد.
- قابلیت تفسیر آسان: این برای تجارت بسیار مهم است. این می تواند بار تیم تجزیه و تحلیل را کاهش دهد و به مدیران توانایی تصمیم گیری بر اساس داده های قابل درک را بدهد. علاوه بر این، نتیجه گیری در مورد دلایل موفقیت یا شکست یک ویژگی آسان است.
- محافظت در برابر تصمیمات نادرست: با انتخاب یک گزینه کاری برای طولانی مدت به جای “هرزنامه کردن فید با بنرها”، از خود در برابر تصمیمات اشتباه محافظت می کنیم.
مهم! برای راه اندازی NorthStar، شرکت باید یک تحلیلگر داشته باشد که در یادگیری ماشین در سطح پیشرفته مهارت داشته باشد.
اجرای متریک NS می تواند توسط KPI ضعیف سازماندهی شده که با شاخص کلیدی ما مرتبط نیست، مانع شود.
جایگزینهای متریک مؤلفه، مثالهایی
- جی ام وی – برای تجارت الکترونیک اما با آن محتاط باشید (همانطور که در بالا توضیح داده شد).
- یک معیار محبوب، به عنوان مثال، در خدمات رسانه ای است کل زمان نمایش – کل زمان مشاهده برای درک اینکه کاربران چقدر محتوا را دوست دارند خوب است، اما نسبت به فصلی بودن بسیار حساس است و همیشه نتایج دقیقی را در آزمایش ها ارائه نمی دهد.
🦸متریک اصلی محصول یک ابرقهرمان است که همیشه از کیفیت و سودآوری محصول شما محافظت می کند. این به جلوگیری از تعقیب و گریز برای پول به هزینه کاربر کمک می کند و اجازه می دهد تا تصمیم گیری موثر بر اساس داده ها را انجام دهد. معیار اصلی خود را پیدا کنید، کیفیت و سودآوری را متعادل کنید و به سمت موفقیت حرکت کنید!
منتشر شده از طریق به سمت هوش مصنوعی
منبع: https://towardsai.net/p/machine-learning/how-to-use-only-1-metric-in-ab-tests