دو روش اصلی برای طبقهبندی اسناد در سلسله مراتب موضوعی وجود دارد:
-
- مدل مسطح (مسطح کردن سلسله مراتب): هر موضوع سلسله مراتب مربوط به یک دسته بندی جداگانه با دادههای آموزشی خود می باشد. طبقهبندی بر اساس تکنیک های طبقهبندی متن، رده مناسب برای یک سند جدید وب سایت ورودی را تعیین می نماید[۱۳,۵۲].
-
- مدل سلسله مراتبی (بهرهبرداری از سلسله مراتب): یک سلسله مراتب از رده بندها ساخته می شود به طوری که هر طبقهبندی کننده هر بار برای طبقهبندی یک سند در رده مناسب بین طبقات از همان سطح در سلسله مراتب پس از یک مسیر از ریشه به پایین برگ های درخت سلسله مراتب تصمیم میگیرد. به عنوان مثال، یک سند وارده ممکن است به رده هنر، (بین هنر، علوم و ورزش)، به رده رقص در هنر(بین شعر، عکاسی و نقاشی)، سپس به رقص اسپانیایی در دسته رقص/هنر اضافه شود. نمرات انتساب برای همه این تصمیمات میتواند رده آخر برای سند ورودی را تعیین کند[۱۳,۵۲].
با ترکیب این دو حوزه پژوهش، یعنی شخصی سازی محتوای جستجو و طبقهبندی سلسله مراتبی وب سایت ، Captain nemo، یک ابرجستجوگر کاملا کاربردی با فاصله جستجوی شخصی سلسله مراتبی ایجاد شدهاست. Captain nemo بازیابی و ارائه نتایج جستجو را با توجه به مدل های بازیابی شخصی و سبک های ارائه انجام می دهد. کاربران یک سلسله مراتب از موضوعات مورد علاقه را تعریف می کنند. نتایج جستجو به طور خودکار در سلسله مراتب طبقهبندی می شود و از تکنیک های طبقهبندی نزدیکترین همسایه استفاده می شود[۱۳,۵۲].
این روش طبقهبندی روشی ترکیبی است. هر موضوع سلسله مراتب به عنوان یک گروه مجزای دارای اطلاعات آموزش خاص خود همانند مدل مسطح در نظر گرفته می شود. با این حال، مجموعه دادههای آموزش یک موضوع توسط دادهها از زیر موضوعات آن غنی می شود. در نتیجه، تصمیم اینکه آیا یک صفحه وب متعلق به یک دسته بندی است به شدت در نسل های آن بستگی دارد[۵۲].
حالت برنامه معمول برای Captain nemo با مجموعه ای از کلمات کلیدی داده شده توسط کاربر شروع میشود. Captain nemo از چند موتور محبوب جستجوی وب برای بازیابی صفحات وب مربوط به آن کلمات کلیدی استفاده می نماید. صفحه های حاصل با توجه به سبک ارائه تعریف شده توسط کاربر و مدل بازیابی ارائه می شوند. کاربران میتوانند بیش از یک مجموعه ی مختلف از ترجیحات را حفظ کنند که منجر به سبک های مختلف و مدل های ارائه بازیابی می شود. برای هر صفحه وب بازیابی شده، Captain nemo موضوع مربوط به منافع شخصی کاربر را توصیه می دهد. کاربران به طور اختیاری میتوانند صفحات بازیابی شده را در پوشههای خاصی ذخیره نمایند که با موضوعات مورد علاقه برای استفاده در آینده مطابقت دارد[۵۲].
۳-۴-۲-۲ -۱-۱ فضاهای جستجوی شخصی
فضاهای جستجوی شخصی برای کاربران Captain nemo حفظ می شوند. هر فضای جستجوی شخصی شامل ترجیحات کاربر می شود تا قادر به پشتیبانی از ویژگی های شخصی در دسترس شود. در واقع، بیش از یک مجموعه از تنظیمات را می توان برای هر کاربر حفظ نمود که منجر به مدل های بازیابی مختلف و سبک های ارائه می شود. فضای جستجوی شخصی از طریق سه فیلتر شخصی سازی مربوطه اجرا می شود[۵۲].
۳-۴-۲-۲ -۱-۱-۱ مدل شخصی بازیابی
بسیاری از ابرجستجوگرهای موجود، یک مدل بازیابی استاندارد را به کار می گیرند. در Captain nemo، این محدودیت را حذف می کند و کاربران میتوانند مدل های بازیابی شخصی خود را با تنظیم پارامترهای خاصی در سیستم ایجاد نمایند. مقادیر پیش فرض این پارامترها برای کاربرانی که نمی خواهند در این مورد زمان صرف شود، از پیش تعیین می شود. این پارامترها در زیر توضیح داده شدهاست[۳۱]:
-
- موتورهای جستجوی مشارکت کننده: کاربران میتوانند موتورهای جستجویی راکه به آنها اعتماد دارند اعلام نمایند، به طوری که تنها این موتورهای جستجو توسط ابرجستجوگرها استفاده می شوند.
-
- وزن های موتور جستجو: در یک ابرجستجوگر، صفحات وب بازیابی شده می توانند با توجه به رتبهبندی آنها در هر موتور جستجو فردی که مورد استفاده قرار می گیرد رتبه بندی شوند. در Captain nemo، موتورهای جستجو میتوانند در الگوریتم رتبهبندی با وزن های مختلف شرکت کنند. این وزن ها توسط کاربر تنظیم می شوند. وزن پایین تر برای یک موتور جستجو نشان دهنده قابلیت اطمینان و اهمیت کم برای آن موتور خاص است. نتایج بازیابی شده توسط این موتور جستجو را در پایین خروجی Captain nemo ظاهر میشود.
-
- تعداد نتایج:تحقیقات اخیرنشان داده است که اکثر کاربران موتور جستجو (۸۱.۷٪) به ندرت خارج از صفحه سوم از نتایج جستجو را می خوانند. کاربران میتوانند تعداد صفحات وب بازیابی شده را در هر موتور جستجو تعریف کنند.
-
- اتمام مهلت موتور جستجو: تاخیر در امر بازیابی یک موتور جستجو به طور چشمگیری میتواند زمان پاسخ هر ابرجستجوگرکه از موتور جستجوی خاص استفاده می نماید را بدتر کند. در Captain nemo، کاربران میتوانند گزینه توقف زمانی، یعنی زمان برای صبر در صفحات وب برای هر موتور جستجوراتنظیم کنند. نتایج تاخیر در موتورهای جستجو نادیده گرفته میشوند[۳۱,۵۲].
۳-۴-۲-۲ -۱-۱-۲ سبک ارائه شخصی
نتایج Captain nemo، از طریق یک واسطه سفارشی، به نام سبک ارائه شخصی بیان می شود. باز هم، مقادیر پیش فرض این پارامترها برای کاربرانی که نمی خواهند در این مورد زمان صرف کنند از پیش تعیین می شود.
گزینه های زیر وجود دارد:
-
- گروه بندی: در یک ابرجستجوگر نمونه، نتایج بازگردانده شده توسط موتورهای جستجو با هم ادغام می شوند، رتبهبندی می شوند و در یک لیست ارائه می شوند. علاوه بر این سبک ارائه نمونه، Captain nemo میتواند صفحات وب بازیابی شده را توسط موتور جستجو یا موضوع مورد علاقه گروه بندی نماید.
-
- محتوا: نتایج بازیابی شده توسط Captain nemo شامل سه بخش، عنوان، توضیحات و URL می شود. کاربران میتوانند اعلام کنند که کدام یکی از این قطعات باید نمایش داده شود. گزینه های در دسترس هستند عنوان، توضیحات و URL، عنوان و URL هستند.
-
- نگاه و احساس: کاربران میتوانند نگاه و احساس کلی از Captain nemo را سفارشی نمایند. با انتخاب در میان زمینه های رنگی و طرح بندی صفحه در دسترس، آنها میتوانند راه های بهتر ارائه نتایج را تعریف کنند. شش زمینه رنگی و سه طرح بندی صفحه وجود دارد[۵۲].
۳-۴-۲-۲ -۱-۱-۳ موضوع مورد نظر شخصی
کاربران Captain nemo میتوانند موضوعات مورد علاقه شخصی را تعریف کنند، یعنی دسته بندی موضوعی که در آن نتایج جستجو را می توان به عنوان مرجع در آینده نگهداری نمود. صفحات وب بازیابی شده را می توان در پوشههایی ذخیره نمود که به این موضوع مربوط می شود. این پوشهها نقشی مشابه با علاقهمندی ها یا نشآنها در مرورگرهای وب دارند. نتایج گروه بندی شده موضوع مورد علاقه در شکل ۳-۱۶ نشان داده شدهاست.
شکل ۳-۱۶. نتایج گروه بندی شده موضوع مورد علاقه[۵۲]
برای هر صفحه وب بازیابی شده، Captain nemo موضوع مربوطه را از منافع شخصی توصیه می کند. کاربران اختیاری میتوانند صفحات بازیابی شده را در پوشه توصیه شده و یا برای استفاده در آینده ذخیره نماید[۵۲].
موضوعات مورد علاقه شخصی در سلسله مراتب سازمان یافته می شود. سلسله مراتب را می توان به عنوان یک ساختار درختی با ریشه و مجموعه ای از گره هایی تصور نمود که به مباحث سلسله مراتب موضوعی ارجاع می شوند. برای هر گره موضوعی وجود دارد:
-
- یک برچسب وجود دارد که مفهوم آن را توصیف می کند
-
- شرح سختگیرانه تر از مفهوم (مجموعه ای از کلمات کلیدی) وجود دارد.
شکل ۳-۱۷ چنین سلسله مراتبی از موضوعات مورد علاقه شخصی را نشان میدهد.
شکل ۳-۱۷ سلسله مراتب موضوعات مورد علاقه شخصی[۵۲]
۳-۴-۲-۲ -۱-۲ پیاده سازی سیستم
شکل ۳-۱۸ ماژول های اصلی معماری Captain nemo را نشان میدهد.
شکل ۳-۱۸ معماری سیستم [۵۲] Captain nemo
-
- ماژول جستجو[۷۳]: این ماژول، قابلیت اصلی ابرجستجوگرها را با ارائه اتصال به موتورهای جستجو انتخاب شده توسط کاربر پیاده سازی می نماید. صفحات وب مرتبط را با توجه به مدل بازیابی تعریف شده توسط کاربر بازیابی می نماید. نتایج بهدستآمده به ماژول رتبهبندی برای پردازش بیشتر ارسال میشود. ماژول در Perl با بهره گرفتن از بسته بندهای موتور جستجو WWW: Search4، که توسط تنظیمات کاربر پارامتر بندی شدهاست اجرا می شود[۲۴,۶۵].
-
- ماژول رتبهبندی[۷۴]: صفحات وب بازیابی شده بر اساس مدل بازیابی شخصی سازی کاربر رتبه بندی و گروه بندی می شوند. برای هر صفحه وب بازیابی شده، یک موضوع مربوط به منافع شخصی تعیین میشود. روند رتبهبندی، در Perl اجرا می شود[۶,۵۲].
-
- ماژول ارائه[۷۵]: این ماژول، ارائه دهنده نتایج جستجوی ارائه شده توسط ماژول رتبهبندی است. این ماژول در Perl CGI تولیدکننده خروجی XML اجرا می شود. دومی از طریق فیلتر XSL مناسب به نمایندگی از نگاه و احساس تنظیمات کاربر خاص عبور داده می شود[۵۲].
-
- مدیریت اولویت ها[۷۶]: این مورد ارتباط بین سه ماژول فوق یعنی ماژول جستجو، رتبهبندی ماژول، ماژول ارائه و اطلاعات ذخیره شده در پروفایل کاربر را فراهم میکند. همچنین مسئول به روز رسانی پروفایل های کاربری و فایل های XSL مربوطه است. این مورد در Perl در بالای سیستم پایگاه داده PostgreSQL اجرا شدهاست[۵۲].
-
- طبقهبندی سلسله مراتبی[۷۷]: پیاده سازی طبقهبندی سلسله مراتبی را از نتایج به سلسله مراتب موضوعی از کاربر ارائه می دهد، این مورد در Perl اجرا می شود[۵۲].
- مدیریت طبقه ها[۷۸]: این موضوعات مورد علاقه را مدیریت می نماید و پوشههای مناسب را بر روی دیسک مطابق با پروفایل های کاربر نگه می دارد. این مورد تمام اطلاعات لازم را به طبقهبندی سلسله مراتبی فراهم میکند. با ماژول های ارائه شده همکاری می کند، هنگامی که گروه بندی های موضوعات مورد علاقه توسط کاربر انتخاب می شود. سلسله مراتب موضوعی توسط شاخص های XML ارائه می شود که توسط Perl تجزیه می شوند[۵۲].