شکل ۴-۸ محتوای a1 S1 ۸۱
۸۱
۸۲
۸۲
شکل ۴-۱۲ مسیر طی شده در اولین مرحله از روش اول عمق ۸۲
شکل ۴-۱۳ مسیر طی شده در nامین مرحله از روش اول عمق در هسته اول ۸۴
شکل ۴-۱۴ مسیر طی شده در اولین مرحله از روش اول عمق ۸۴
شکل ۴-۱۵ مسیر طی شده در nامین مرحله از روش اول عمق ۹۰
شکل۵-۱ نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی”Computer networks“ ۹۴
شکل ۵-۲ نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی”Artificial Intelligence“ ۹۴
شکل ۵-۳ نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی“Web crawler“ ۹۵
شکل ۵-۴ نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی”Search engine“ ۹۵
شکل ۵-۵ نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی ”Cloud Computing“ ۹۶
شکل ۵-۶ نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی ”Software engineering“ ۹۶
شکل ۵-۷ نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی”Data mining“ ۹۷
شکل۵-۸ نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی ”Computer architecture“ ۹۷
شکل ۵-۹ نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی”Operatin system “ ۹۸
شکل۵-۱۰ نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی”Wi-Fi“ ۹۸
فهرست نشانه ها(فرمول ها)
…………………………………………………………………………………………………………………………………………… ۶۷
Sim(q , p) = ………………………………………………………………………………………………………………… 68
h(n)≤h*(n)
h(n)≥۰ …………………………………………………………………………………………………… ۶۹
۰ ≤h(n) ≤h*(n)
فهرست اختصارات
BFS Best First Search
DFS Depth First Search
DNS Domain Name System
FTP File Transfer Protocol
HTTP Hyper Text Transfer Protocol
IP Internet Protocol
PPC Pay Per Click
SA Simulated Annealing
TA Threhsold Acceptance
URL Uniform Resource Locator
TFIDF ………………………….………………Term Frequency Inverse Document Frequency
چکیده
در عصر اطلاعات، وب امروزه به یکی از قدرتمند ترین و سریع ترین ابزارهای ارتباطات و تعـامل میان انسان ها بدل شده است. موتورهای جستجو به عنوان برنامه های کاربردی وب به طور خودکار پهنه وب را پیمایش نموده و مجموعـه ای از اسناد و مـدارک بروز موجـود را دریافـت می کننـد. فرآینـد دریافت، ذخیره سازی، رده بندی و شاخص دهی بر اساس الگوریتم های نیمه هوشمند به صورت خودکار انجـام می شود. اگر چه بسیاری از حقایق در مورد ساختار این برنامه های کاربردی به عنـوان اسـرار تجاری پنهان باقی مانـده است، ادبیات تحقیق در شاخه ی موتورهای جستجو و ابزارهای بازیابی اطلاعات تلاش در یافتن بهترین راهکارها برای عملکرد بهینه ی هر ماژول در ساختار موتورهای جستجو دارد. با توجه به زمان محدود کاربران وب امروزی، ارائه مرتبط ترین و تازه ترین اسناد به آنها اغلب مهمترین چالشی برای موتورهای جستجو می باشد. برای انجام این مهم، هر ماژول در معماری موتور جستجو باید به گونه ای هوشمند طراحی شود که نه تنها اسناد مرتبط را ارائه دهد بلـکه به پاسخگویی در سریع ترین زمان ممکن بپردازد. در میـان این ماژول ها بخش حساس و حیاتی به نام خزنده وجود دارد. یکی از مسائل قابل بحث در بهینه سازی عملکرد موتورهای جستجو این است که، سیاست خزیدن پیکربندی مجـدد گردد به طریقی که لینک های خارجی مرتبطی که به محتوای مرتبط با صفحات منبع پیوند می خورند دنبال گردد. ماژول خزنده مسئول واکشی صفحات برای ماژول رتبه بندی است. اگر صفحات با کیفیت بالاتر با انحراف موضوع کمتر توسط خزنده نمایه سازی شوند، رتبه بندی سریع تر انجام خواهد شد.
با در نظر گرفتن ساختار وب به صورت گراف، نحوه ی پیمایش وب به صورت روش های جستجوی گرافی می باشد. در این پژوهش، با بکار بردن تجربی روش های مختلف جستجوی گراف و ترکیبات مختلف آنها و با صدور پرس و جوهایی به موتور جستجوی گوگل جهت اندازه گیری کیفیت صفحات دریافتی و با ثابت در نظر گرفتن فاکتور عمق پیمایش به شناسایی بهترین روش با پیچیدگی زمانی و فضایی معقول به منظور بکار گیری در بخش خزنده در معماری موتور جستجو پرداخته خواهد شد.
کلمات کلیدی: خزنده وب، پیمایش گراف، موتورهای جستجو، انحراف موضوع.
فصل اول
کلیات
۱-۱ مقدمه
بدون وجود موتورهای جستجوگر تقریباً وب جهان گستر بدون فایده است. اما سؤال این است که موتورهای جستجوگر چگونه در میان این همه وب سایت اطلاعات مورد نیاز ما را پیدا می کنند. اینترنت بسیار وسیع است و کاربران وب در حدود دو میلیارد برآورد می شوند. در این میان حداقل ۲۵۰ میلیون وب سایت اینترنتی وجـود دارد که در مجمـوع چیزی در حدود ۳۰ میلیارد صفحه وب را در خود جـای داده اند. گشتن در محیط وب[۱] زمانی که بسیار کوچک و وب سایت ها بسیار کم بودند معمولاً اختصاص به پژوهشگران و اساتید دانشگاه داشت و می توان گفت که کار دشواری نیز به شمار می رفت[۹].
با توسعه وب و زیاد شدن حجم اطلاعات و وب سایت ها نیاز به ابزاری جهت یافتن اطلاعات در این اقیانوس اطلاعات بیش از پیش احساس می شد. در همین حال در اوایل دهه نود میلادی بود که اولین موتورهای جستجوگر به نام آرچی[۲] پا به عرصه حضور گذاشتند. یک موتور جستجوگر در قدم اول و قبل از آنکه بخواهد نتایجی را به کاربر نمایش دهد بایستی اطلاعات را جمع آوری و طبقه بندی کرده باشد. بنابراین موتورهای جستجو باید تا حد امکان وب سایت ها را مرور کنند و آدرس صفحات را با چکیده ای از محتویات صفحه ذخیره و طبقه بندی کنند. این وظیفه بسیار سنگین است و توسط خزندگان وب[۳] انجام می شود[۵۳].
این برنامه ها به صورت خودکار در وب به جستجو پرداخته و محتویات صفحات وب سایت ها را برای تحلیل بعدی ذخیره می کنند. از آنجا که تعداد صفحات و حجم آنها بسیار بالاست از این رو این کار در مقیاس بسیار بزرگی انجام می شود و به زمان و پهنای باند بالایی نیاز دارد. موتورهای جستجوگر معروف مخزن بسیار بزرگی را در صفحات وب ایجاد کـرده اند اما خزندگان جدیدتر باید این کار را از صفر شـروع کنند. خزنده ها برای شروع معمولاً به سراغ دایرکتوری های معروف می روند چون از طریق آنها می توانند به لیست بزرگی از سایت های مرتبط دسترسی پیدا کنند و با مرور این وب سایت ها خزنده وب هر چه بیشتر در فضای داخلی وب سایت ها فرو می رود و اطلاعات بیشتری بدست می آورد. تمامی این اطلاعات در مخزن ذخیره می شوند تا بعداً مورد تجزیه و تحلیل قرار گیرند[۴۴].
دانلود مطالب پژوهشی در رابطه با بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند ...