-
- افرادی که شیر خشک نوزاد می خرند هم چنین با احتمال ۱ Pپوشک نوزاد را می خرند.
-
- افرادی که پوشک نوزاد می خرند هم چنین با احتمال ۲ P شیر خشک نوزاد را هم می خرند.
تعیین قواعد وابستگی معمولاً در بانک اطلاعات تراکنش ها کاربرد دارد. در این روش که به صورت قواعد اگر_ آنگاه (X->Y) بیان می شود، هم زمان واقع شدن X و Y با Support و شانس وقوع قاعده با Confidence بیان می شود. Support بالای یک قاعده، نشان دهنده ی تکرار زیاد و نیاز به توجه ویژه به آن و Confidence بالا نشان دهند ی صحت کافی قاعده برای استفاده در تصمیم گیری هاست. مقادیر Support و Confidence به روش زیر محاسبه می گردد:
تعداد کل/تعداد تکرارX =Support(X)
تعداد کل/تعداد تکرارX و Y باهم =Support(XY)
Confidence(X->Y) =Support (XY)/Support(X)
توصیف و نمایه سازی[۲۹]
گاهی اوقات هدف داده کاوی، تنها توصیف آن چیزی است که در یک پایگاه داده ای پیچیده در جریان است. نتایج نمایه سازی درک ما را از مردم، محصولات یا فرایندهایی که داده ها را در مرحله اول تولید کرده اند افزایش می دهد. درحقیقت نمایه سازی یک روش آشنا برای بسیاری از مسائل است که نیاز به درگیر شدن با تحلیل پیچیده داده ها ندارد. به عنوان مثال مطالعه و نظرسنجی یک روش رایج برای ساختن نمایه مشتریان است. مطالعات و نظر سنجی ها نشان می دهند که مشتریان بالفعل و بالقوه چه مشخصاتی دارند یا حداقل این که چطور پاسخ دهندگان به سوالات پاسخ می دهند.
نمایه ها معمولاً مبتنی بر متغیرهای جمعیت شناختی هم چون موقعیت جغرافیایی، جنسیت و سن هستند؛ از آن جا که تبلیغات با توجه به همین متغیرها انجام می شود، نمایه های جمعت شناختی را می توان مستقمیاً به استراتژی های سازمانی تبدیل کرد. به طور مثال از نمایه های ساده برای تعیین حق بیمه استفاده می شود؛ یک پسر ۱۷ ساله بیش تر از یک زن ۶۰ ساله برای بیمه خودرو بایستی پرداخت کند.
درخت تصمیم گیری ابزار مفیدی برای نمایه سازی می باشد؛ قوانین وابستگی و خوشه بندی را نیز می توان برای نمایه سازی استفاده نمود(شهرابی، ۱۳۹۰).
دسته بندی الگوریتم های داده کاوی
به طور کلی الگوریتم های داده کاوی را می توان به سه دسته اصلی تقسیم نمود(نخعی زاده، ۱۳۸۸):
-
- الگوریتم های با رویکرد یادگیری ماشینی:
از این دسته الگوریتم ها می توان به الگوریتم های استنتاج مبتنی بر قواعد[۳۰]، درخت های تصمیم[۳۱]، شبکه های عصبی[۳۲] و خوشه بندی بر مبنای مفاهیم[۳۳] اشاره کرد.
-
- الگوریتم های با رویکرد آمار:
تحلیل خوشه بندی[۳۴]، تحلیل رگرسیون و تحلیلی رگرسیون لجستیک از این دسته الگوریتم ها می باشند.
-
- الگوریتم های با رویکرد فن آوری های بانک های اطلاعاتی:
قواعد وابستگی[۳۵]، نمونه ای از این دسته از الگوریتم ها می باشند.
الگوریتم های خوشه بندی
مهم ترین روش های خوشه بندی به شرح ذیل می باشند(مرشدلو، ۱۳۸۶):
-
- روش افرازی ( تقسیم بندی)[۳۶]
-
- روش سلسله مراتبی[۳۷]
-
- روش مبتنی بر چگالی[۳۸]
-
- روش مبتنی بر مشبک کردن فضا[۳۹]
-
- روش مبتنی بر مدل[۴۰]
روش افرازی ( تقسیم بندی)
روش های خوشه بندی که به روش تقسیم بندی عمل می کنند، داده های موجود در یک مجوعه داده را به K خوشه تقسیم می کنند، به طوری که هر خوشه ۲ خصوصیت زیر را داراست:
-
- هر خوشه یا گروه حداقل شامل یک داده باشد.
-
- هر داده موجود در مجموعه داده دقیقاً به یک گروه یا خوشه تعلق دارد.
معیار اصلی در چنین مجموعه داده هایی میزان شباهت داده های قرار گرفته در هر خوشه می باشد. در حالی که داده های قرار گرفته در دو خوشه مختلف از نظر شباهت با یکدیگر فاصله زیادی دارند. مقدار K که به عنوان پارامتر استفاده می گردد، هم می تواند به صورت پویا تعیین گردد و هم می توان قبل از شروع الگوریتم خوشه بندی مقدار آن را مشخص کرد.
برای دست یابی به خوشه بندی بهینه به شمارش همه افرازهای ممکن نیاز خواهد بود. یعنی تمام حالات ممکن باید بررسی شوند که این روش برای پایگاه داده های بزرگ ناممکن است. معمولا از یکی از الگوریتم های K-means یا K-medoids استفاده می شود در الگوریتم K-means هر خوشه با میانگین اشیا آن خوشه (مرکز خوشه) و در الگوریتم K-medoids با یکی از اشیا که در نزدیکی مرکز خوشه جای گرفته است، نشان داده می شود.
الگوریتم K-MEANS
الگوریتم K-means یکی از پرکاربردترین الگوریتم های خوشه بندی می باشد(شهرابی، ۱۳۹۰). این الگوریتم K ( تعداد خوشه ها) را به عنوان ورودی می گیرد و مجموعه n شی را به K خوشه افراز می کند، به صورتی که سطح شباهت داخلی خوشه ها را بالا برده و سطح شباهت اشیا بین خوشه ها را کاهش دهد.
روش کار در این الگوریتم بدین صورت است:
-
- به صورت تصادفی K شی را به عنوان مراکز خوشه هایی ابتدایی انتخاب می کند.
-
- هر شی را با توجه به بیشترین شباهت آن به مراکز خوشه ها، به خوشه ها تخصیص می دهد.
-
- مراکز خوشه ها را به روز می کند. به این معنی که برای هر خوشه مقدار متوسط اشیا آن خوشه را محاسبه می نماید.
-
- تا هنگامی که هیچ تغییری در خوشه ها رخ ندهد به مرحله ۲ رجوع می کند.
روش های سلسله مراتبی