در این مرحله، مدل بر اساس دانش سازمانی، معیار های موفقیت مدل، برنامه تست طراحی شده و پارامتر های دیگر ارزیابی می شود.
خروجی این فاز:
ارزشیابی مدل[۵۸]: خلاصه فعالیت های انجام شده در این مرحله به همراه لیست ویژگی های مدل تولید شده، مثل دقت مدل در این گزارش بیان می شود. [۳۱]
شکل شماره ۱٫۴٫۲٫۳٫ مرحله مدل سازی
۱٫۴٫۲٫۳٫ مروری بر تکنیک های ساخت مدل سازی رفتار مشتری
در این بخش ضمن مروری کوتاه بر روند و حجم کاربرد روش های مختلف داده کاوی در مدل سازی رفتار مشتری تلاش می شود تا مرسوم ترین روش ها و روند تغییرات در کاربرد آنها طی سال های مختلف نشان داده شود. برای این منظور از دو مطالعه مرور ادبیات موضوع کاربرد روش های داده کاوی ورهوف و دانکرز[۵۹] و هادن[۶۰] و همکاران استفاده شده است. نمودار ۱٫۱٫۴٫۲٫۳ خلاصه ای از نتایج ورهوف و دانکرز و نمودار ۲٫۱٫۴٫۲٫۳ خلاصه ای از نتایج هادن و همکاران در این خصوص را نشان می دهد. ورهوف و دانکرز در این تحقیق از مقالات منتشر شده در فاصله سال های ۱۹۹۵ تا ۲۰۰۲ استفاده کرده اند. هادن و همکاران نیز در مطالعه خود، کاربرد روش های مختلف در مدل سازی رفتار مشتری را با مرور ۸۹ مقاله منتشر شده طی فاصله سال های ۲۰۰۰ تا ۲۰۰۵ بررسی کرده اند. نمودار ۳٫۱٫۴٫۲٫۳ حاصل افزودن ۴۶ مقاله منتشر شده در ژورنالهای معتبر ISI در فاصله سال های ۲۰۰۵ تا ۲۰۱۰ به نتایج هادن و همکاران می باشد. [۳۴]
نمودار شماره ۱٫۱٫۴٫۲٫۳٫ خلاصه ای از نتایج ورهوف و دانکرز
نمودار شماره ۲٫۱٫۴٫۲٫۳٫ خلاصه ای از نتایج هادن و همکاران
نمودار شماره ۳٫۱٫۴٫۲٫۳٫ مرسوم ترین روش ها در فاصله سال های ۲۰۰۵ تا ۲۰۱۰
نتایج ورهوف و دانکرز در نمودار ۱٫۱٫۴٫۲٫۳ نشان می دهد که روش های جدول بندی توافقی[۶۱] معمول ترین
روش های بخش بندی و مدل سازی پیش بینی کننده در گذشته بوده اند. ستون بعدی بیانگر آن است که روش های مبتنی بر RFM از بیشترین سهم در این مدل سازی برخوردار بوده اند. این در حالیست که هادن در نمودار ۲٫۱٫۴٫۲٫۳ اعتقاد دارد که RFM بیشتر در تعریف متغیر های مورد استفاده در مدل سازی و نه تکنولوژی انجام کار درگیر می باشد. همچنین نتایج ورهوف و دانکرز نشان دهنده آن است که رگرسیون خطی تکنیکی مرسوم برای انجام مدل سازی پیش بینی کننده بوده است. نکته جالب در این شکل آن است که سه روش CART، رگرسیون لوجیت و شبکه های عصبی که از روش های بسیار مرسوم فعلی هستند، در آن زمان سه رده آخر را در بحث مدل سازی پیش بینی کننده در اختیار داشتند.
نتایج هادن و همکاران در نمودار ۲٫۱٫۴٫۲٫۳، نشان دهنده آن است که در این دوره روش های جدول بندی توافقی به عنوان روشی قدیمی و غیر قابل استفاده کنار گذاشته شده و با روش های پیشرفته تر و دقیق تری جایگزین شده است. از سوی دیگر تفاوت عمده ای که در مورد این دو نمودار وجود دارد آن است که در نمودار ۱٫۱٫۴٫۲٫۳ به روش های موجود برای بخش بندی و پیش بینی به شکل عمومی پرداخته شده است. این درحالی است که در نمودار ۲٫۱٫۴٫۲٫۳ تمرکز اصلی بر روی روش های موجود برای پیش بینی رفتار مشتری بوده است.
همان طور که در نمودار ۲٫۱٫۴٫۲٫۳ مشاهده می شود تحلیل رگرسیون عمده ترین روش مورد استفاده در اکثر تحقیقات در این حوزه بوده است و پس از آن به ترتیب درخت های تصمیم، مدل های مارکوف و شبکه های عصبی قرار داشته اند. این در حالی است که این روش ها دارای کمترین سهم در نمودار ۱٫۱٫۴٫۲٫۳ بوده اند که این خود رشد سریع کاربردهای تکنیک ها را در زمینه های تحقیقاتی مورد بحث نشان می دهد.
نمودار ۳٫۱٫۴٫۲٫۳، که حاصل افزودن ۴۶ مقاله منتشر شده در فاصله سال های ۲۰۰۵ تا ۲۰۱۰ به نتایج هادن و همکاران می باشد بیانگر آن است که روش ساده رگرسیون پر کاربردترین روش در مدل سازی رفتار مشتری
تاکنون بوده است. با این وجود فاصله کاربرد این روش از سایر روش های داده کاوی در سالیان اخیر به میزان چشمگیری کاهش یافته است. [۳۰] [۳۴]
۵٫۲٫۳ . پایش و ارزشیابی
پس از انتخاب مدل بایستی در این مرحله به بررسی و ارزیابی این موضوع پرداخت که آیا نتایج آنالیز داده ها ما را در رسیدن به اهداف کسب و کار یاری می کنند؟ در این مرحله دانش بدست آمده در مرحله چهارم مورد تجزیه و تحلیل قرار خواهد گرفت تا میزان سودمندی و کاربرد آن مشخص شود. به عنوان مثال در مورد مدلهای پیش بینی کننده باید دقت مدل روی داده های جدید تست شود و در صورت تایید نتایج حاصل از آن می تواند به کار گرفته شود. این مرحله شامل فعالیت های زیر می باشد:
ارزیابی نتایج
در این مرحله با بررسی نتایج به دست آمده از مراحل پیشین، بررسی می شود که آیا مدل به دست آمده اهداف مد نظر در مرحله اول را برآورده می سازد و هزینه و بودجه ای که برای انجام این پروژه لازم است با منابع مالی سازمان تناسب
دارد.
مرور فرایند آنالیز
در این مرحله با مرور کلی فرایند داده کاوی انجام شده، بررسی می شود که آیا مدل ایجاد شده برای براورده ساختن نیاز های کسب و کار رضایت بخش می باشد. این بخش شامل بررسی کیفی مدل نیز می باشد.
شکل شماره ۱٫۵٫۲٫۳٫ مرحله پایش و ارزیابی
۱٫۵٫۲٫۳٫ اعتبار سنجی متقاطع
پنجمین فاز از چرخه استاندارد CRISP، که قبل از گام به کارگیری نتایج قرار دارد، اعتبار سنجی نتایج است. در این بخش ابتدا روش های مرسوم اعتبار سنجی متقاطع و استفاده از مجموعه ای جداگانه یا روشی دیگر برای اعتبار سنجی نتایج معرفی شده است. [۳۱]
در اعتبار سنجی متقاطع[۶۲]، داده های اولیه با نسبتی از پیش تعیین شده به دو یا جند مجموعه تقسیم
می شوند. در این نوع اعتبار سنجی داده های موجود برای هر دو منظور اجرای الگوریتم و نیز اعتبار سنجی نتایج مورد استفاده قرار می گیرد. به عنوان مثال هوانگ[۶۳]، اعتبار سنجی نتایج تحقیقات خود را با کمک تقسیم بندی ۳۰/۷۰ داده های در اختیار انجام داده است که در آن ۷۰% از داده ها مجموعه آموزشی[۶۴] را تشکیل داده و ۳۰% باقی مانده مجموعه اعتبار سنجی[۶۵] را تشکیل می دهند که برای بررسی و اعتبار سنجی نتایج به کار می روند. [۱۵]
اعتبار سنجی متقاطع n تایی[۶۶]
در این روش مجموعه در اختیار داده ها به طور تصادفی به مجموعه های دیتاست محدودی با اندازه مساوی شکسته می شود. هر یک از این مجموعه ها در ادامه به عنوان یک مجموعه اعتبار سنجی به کار خواهد رفت. [۳۵]
اعتبار سنجی متقاطع مونت کارلو[۶۷]
در این روش مجموعه در اختیار به طور متوالی به بخش های تصادفی آموزشی و اعتبار سنجی شکستهمی شود. [۳۵]
۲٫۵٫۲٫۳٫ استفاده از مجموعه داده جداگانه
در بسیار از تحقیقات تلاش می شود تا در صورت امکان از داده های با تمایز بیشتر به عنوان مجموعه
اعتبار سنجی استفاده شود. به عنوان مثال داده های چندین شعبه فروش به عنوان مجموعه آموزش و داده های تعدادی دیگر از شعبات به عنوان مجموعه اعتبار سنجی به کار رود. یا اطلاعات یک دوره زمانی به عنوان داده آموزش و دوره زمانی دیگر برای اعتبار سنجی به کار رود. به این طریق تا حد زیادی از همبستگی احتمالی داده ها و تاثیر شرایط محیطی بر نتایج اجتناب می شود. یکی از روش های مرسوم برای اعتبار سنجی تکرار مدل سازی با روش های دیگر و مقایسه نتایج حاصل و میزان ثبات آنها در مدل سازی های مختلف می باشد. به عنوان مثال داتا[۶۸] و همکاران نتایج به دست آمده مدل خود را با کاربرد الگوریتم ها و روش های مختلف مدل سازی اعم از رگرسیون، درخت های تصمیم و کلاس بندی KNN با هم مقایسه کرده است و به این طریق اعتبار نتایج حاصل را به اثبات رسانده است. [۳۶] همچنین در این تحقیق یک مجموعه جداگانه به عنوان مجموعه اعتبار سنجی شامل ۱۷۰۰۰ رکورد برای اعمال روش های مقایسه ای به کار رفته است. بلومر[۶۹]، پرینزی[۷۰] و ون دن پل[۷۱] در بررسی نتایج مدل های پیشنهادی خود از همین روش استفاده کرده اند. [۳۷]
۳٫۵٫۲٫۳٫ اعتبار سنجی نتایج حاصل از مدل های تخمین و پیش بینی
در مدل های پیش بینی و تخمین زننده که جز متد های با ناظر ( با متغیر پیوشته ) در داده کاوی محسوب
می شود. هر دو مقدار تخمین زده شده ( یا پیش بینی شده ) از متغیر هدف و مقدار واقعی آن y وجود دارد. طبیعی ترین راه برای تخمین دقت مدل استفاده از نرخ خطای تخمین است که با مقدار اندازه گیری می شود. از آنجا که میانگین این مقادیر معمولا برابر صفر است، معمولا از میانگین مربعات خطا[۷۲] برای این منظور استفاده می شود که برابر با مقدار زیر است: [۳۸]
۴٫۵٫۲٫۳٫ اعتبار سنجی نتایج حاصل از مدلهای دسته بندی
یکی از بزرگترین کاربرد های داده کاوی با ناظر، دسته بندی است که در آن متقیر های هدفی گسسته وجود دارد که بر اساس مجموعه ای از متغیر های ورودی پیش بینی کننده تخمین زده می شود.
معمولا در ارزیابی این مدل ها، توان آنها در دسته بندی و پیش بینی متغیر هدف برای مجموعه آزمون سنجیده
می شود و نه بر اساس دقت آن در مجموعه آموزش که برای ساخت مدل به کار رفته است. بر اساس دسته بندی که از مجموعه آموزش صورت گرفته است، مدل دسته بندی را برای رکورد های جدید انجام می دهد. با توجه به این که این دسته بندی چقدر خوب انجام شده است، میزان دقت و اعتبار مدل را نشان می دهد. برای این منظور ابزارها و روش های مختلفی وجود دارد که در این بخش برخی موارد بیان می شود:
نرخ خطا[۷۳]، مثبت اشتباه[۷۴]، منفی اشتباه[۷۵]:
به عنوان مثال فرض کنید هدف شناسایی مشتریان رویگردان است، فرض می کنیم که رویگردان بودن به عنوان مثبت فرض شود. در این حالت مشتریان غیر رویگردانی که توسط الگوریتم به اشتباه غیر رویگردان فرض
می شوند مثبت اشتباه هستند و مشتریان رویگردانی که به اشتباه غیر رویگردان فرض می شوند منفی اشتباه هستند که معادل خطای آلفا و بتا در آزمون فرض آماری است. نتایج این ارزشیابی در ماتریس به نام ماتریس آشفتگی[۷۶] نشان داده
می شود که در آن ستونها نشان دهنده دسته پیس بینی شده و سطر ها نشان دهنده دسته واقعی می باشد. نمونه ای از این ماتریس در جدول ۱٫۴٫۵٫۲٫۳ نشان داده شده است.
جدول شماره ۱٫۴٫۵٫۲٫۳ . ماتریس آشفتگی مقادیر پیش بینی شده در روش های دسته بندی
پیش بینی شده |