حوزه های یادگیری ماشین[8] و تشخیص الگو[9] در مباحث مرتبط با نظریه ها و الگوریتم های استخراج الگو از داده ها با حوزه KDD به نوعی همپوشانی دارند.عملکردهای داده کاوی در شکل (2-3) نشان داده شده اند :
شکل(2-3)-عملکردهای داده کاوی]1[
دسته بندی : دسته بندی، فرایند یافتن مدلی است که با تشخیص دسته ها یا مفاهیم داده می تواند دسته ناشناخته اشیا دیگر را پیش بینی کند.دسته بندی یک تابع یادگیری است که یک قلم داده را به یکی از دسته های از قبل تعریف شده نگاشت می کند.داده های موجود به دو قسمت آموزش و آزمون تقسیم میشوند.داده های آموزش برای یادگیـری قواعد توسط سیسـتم استفاده میشوند و داده های آزمون برای بررسی دقت دسته بندی و جلوگیری از بیش برازش به کار میروند]1[.
برخی روش های متداول دسته بندی عبارتند از :
-
- درخت تصمیم
-
- دسته بندی بیزی : دارای دو نوع بیز ساده و شبکه های بیزی است.
-
- شبکه عصبی پس انتشار[10]
-
- ماشین های بردار پشتیبان
-
- دسته بندی تلازمی
-
- یادگیرندگان کاهل : نزدیک ترین همسایگان، استدلال مبتنی بر مورد[11].
روش ماشین بردار پشتیبان در این تحقیق مورد توجه است که در ادامه تشریح خواهد شد.
لازم به ذکر است که دسته بندی و خوشه بندی متفاوت هستند.دسته بندی هر جز از داده ها را بر مبنای اختلاف بین داده ها به مجموعه های از پیش تعریف شده دسته ها تصویر می کند.در حالی که خوشه بندی داده ها را به گروه های مختلف(خوشه ها) که از قبل معین نیستند، (براساس مشابهت درون خوشه و تفاوت بیرون خوشه) تقسیم می کند.لذا اگر بخواهیم با بهره گرفتن از مفهوم یادگیری، دسته بندی و خوشه بندی را متمایز کنیم، باید بگوییم دسته بندی یادگیری با نظارت و خوشه بندی یادگیری بدون نظارت است.
2-3 کاربردهای داده کاوی و کشف دانش
در بسیاری از داده ها فنون KDD قابل به کار گرفتن هستند، برای مثال :
-
- اطلاعات کسب و کار
-
- تحلیل داده های بازاریابی و فروش
-
- تشخیص تقلب
-
- تحلیل نتایج آزمایشات فنی
-
- اطلاعات علمی
-
- پایگاه داده های پزشکی
-
- زلزله یابی در زمین شناسی
-
- کنترل و زمان بندی
-
- اطلاعات شخصی
2-4 چالش هایی برای KDD
-
- پایگاه داده بزرگتر
پایگاه داده با صدها فیلد و جدول و اندازه های چند میلیارد بایتی کاملا متداول هستند و استفاده از پایگاه داده ترابایتی معمول می شود.
-
- بعد زیاد
نه تنها اغلب تعداد زیادی رکورد در پایگاه داده ها وجود دارد بلکه تعداد زیادی فیلد ممکن است موجود باشند.بنابراین مساله دارای ابعاد زیادی است
-
- بیش برازش[12]
وقنی الگوریتم به دنبال بهترین پارامترهای یک مدل خاص با بهره گرفتن از مجموعه محدودی داده میگردد، ممکن است داده ها را بیش برازش کند که منجر به عملکرد ضعیف مدل روی داده های آزمون می شود.
-
- داده ها و دانش در حال تغییر
داده های در حال تغییر و بی ثبات[13] ممکن است الگوهای کشف شده قبلی را بیاعتبار کند.
- داده مفقوده و مغشوش