تشخیص هرزنامه وب به کمک تکنیک های داده کاوی

تشخیص هرزنامه وب به کمک تکنیک های داده کاوی

نوع فایل: word (قابل ویرایش)
تعداد صفحات : 100 صفحه

چکیده:
امروزه هرزنامه ها یکی از مشکلات اصلی موتورهای جستجو هستند، به این دلیل که کیفیت نتایج جستجو را نامطلوب می سازند. در طول سالهای اخیر پیشرفتهای بسیاری در تشخیص صفحات جعلی وجود داشته است اما در پاسخ تکنیک های هرزنامه جدید نیز پدیدار شده اند. لازم است برای پیشی گرفتن به این حملات، تکنیکهای ضد هرزنامه بهبود یابد.
یک مساله عادی که ما با آن در این زمینه مواجه می شویم این است که خیلی از اسناد رتبه بالایی را توسط موتور جستجو بدست آورده اند در حالی که سزاوار آن نبوده اند. با توجه به گسترش روزافزون وب و همچنین ظهور تکنیک های جدید هرزنامه توسط هرزنامه نویسان، هدف از این پایان نامه بررسی روش های مبتنی بر داده کاوی جهت شناسایی هرچه بهتر صفحات هرزنامه از غیرهرزنامه است.
الگوریتم ها و نرم افزارهای داده کاوی از جمله ابزارهای مورد استفاده در این پژوهش هستند. از مجموعه داده استاندارد UK2007 و نرم افزار وکا جهت ارائه مدلهایی بهینه استفاده شده است و سعی بر ارائه مدلهایی است که ضمن کاهش ویژگی های مورد استفاده جهت شناسایی صفحات هرزنامه از غیرهرزنامه کارایی مطلوبی را نیز ارائه دهد.
کلید واژه:هرزنامه-تکنیک های داده کاوی
فهرست مطالب:
چکیده ۱
فصل اول:مقدمه۲
۱-۱ پیش گفتار ۳
1-2 بیان مسئله ۳
۱-۳ اهمیت و ضرورت انجام تحقیق ۴
ساختار پایان نامه ۵
فصل دوم:وب و هرزنامه های وب۶
۲-۱ وب جهان گستر 7
۲-۱-۱ وب به عنوان گراف۸
۲-۱-۲ گراف وب در صفحه و سطح میزبان۸
۲-۱-۳ اتصال۹
۲-۲ موتورهای جستجو۱۰
۲-۲-۱ معماری موتورهای جستجوی وب۱۱
۲-۲-۲ سرویس دهنده پرس و جوی موتور جستجو۱۳
۲-۳ رتبه بندی ۱۳
۲-۳-۱ رتبه بندی مبتنی بر محتوا۱۳
۲-۳-۲ الگوریتم های مبتنی بر لینک۱۵
۲-۴ هرزنامه وب۱۹
۲-۴-۱ هرزنامه محتوا۲۰
۲-۴-۲ هرزنامه لینک ۲۲
۲-۴-۳ تکنیک های مخفی ۲۷
۲-۵ یادگیری ماشین ۲۹
۲-۵-۱ NaΪVe Bayes 30
۲-۵-۲ درخت تصمیم 31
۲-۵-۳ ماشین بردار پشتیبان۳۳
۲-۶ ترکیب طبقه بندی کننده ها۳۵
۲-۶-۱ Bagging 35
۲-۶-۲ Boosting 36
۲-۷ روش های ارزیابی 37
۲-۷-۱ ارزیابی متقاطع ۳۸
۲-۷-۲ دقت و فراخوانی۳۸
۲-۷-۳ منحنی ROC 39
۲-۸ جمع بندی۴۰
فصل سوم: پیشینه تحقیق 41
۳-۱ مجموعه داده های مورد استفاده توسط محققین ۴۲
۳-۱-۱ UK2006 42
۳-۱-۲ UK2007 43
۳-۱-۳ مجموعه داده جمع آوری شده با استفاده از جستجوی MSN 44
۳-۱-۴ DC2010 44
۳-۲ مطالعات مبتنی بر محتوا۴۷
۳-۳ روش های مبتنی بر لینک۵۱
۳-۳-۱ الگوریتم های مبتنی بر انتشار برچسب ها ۵۱
۳-۳-۲ رتبه بندی تابعی 55
۳-۳-۳ الگوریتم های هرس لینک و وزن دهی دوباره۵۶
۳-۳-۴ الگوریتم های مبتنی بر پالایش برچسب ها ۵۷
۳-۴ روش های مبتی بر لینک و محتوا ۵۸
۳-۴-۱ مطالعات مبتنی بر کاهش ویژگی ۵۷
۳-۴-۲ مطالعات مبتنی بر ترکیب طبقه بندی کننده ها۵۹
۳-۴-۳ مطالعات مبتنی بر تست اهمیت ویژگی های متفاوت در تشخیص هرزنامه 63
۳-۴-۴ مطالعات مبتنی بر پیکربندی وب ۷۱
۳-۴-۵ تشخیص هرزنامه از طریق آنالیز مدلهای زبانی۷۶
۳-۴-۶ تاثیر زبان صفحه بر ویژگی های تشخیص هرزنامه وب۷۹
۳-۴-۷ رویکرد ترکیب ویژگی های مبتنی بر محتوا و لینک برای صفحات عربی ۸۲
۳-۵ جمع بندی ۸۳
فصل چهارم: پیاده سازی ایده پیشنهادی ۸۵
۴-۱ مقدمه۸۶
۴-۲ ویژگی های مجموعه داده انتخابی ۸۷
۴-۳ پیش پردازش ۹۲
۴-۳-۱ پیش پردازش مجموعه داده UK2007 93
۴-۳-۲ کاهش ویژگی ها با اعمال الگوریتم های داده کاوی۹۳
۴-۴ داده کاوی و ارزیابی مدل ها ۹۶
4-4-1 نتایج الگوریتم ها با اعمال روش های کاهش ویژگی 102
۴-۴-۲ مقایسه مقدار F_measure بدست آمده از الگوریتم ها با اعمال بر روی ویژگی های بدست آمده از الگوریتم های کاهش ویژگی۱۰۹
۴-۵ تفسیر نتایج۱۱۰
۴-۶ جمع بندی ۱۱۴
فصل پنجم: نتیجه گیری و کارهای آتی ۱۱۵
۵-۱ نتیجه گیری ۱۱۶
۵-۲ کارهای آتی- ۱۱۷
منابع۱۱۸

خرید و دانلود

محصولات مرتبط

دانلود مبانی نظری تجارت سیار و ادبیات تحقیقی آن

50,000 تومان

ارسال نظر

نام و نام خانوادگی *

ایمیل (برای دریافت پاسخ، حتما وارد کنید)

نظر یا پرسش شما *

ارسال نظر

کد فایل:	7827
حجم فایل ها:	4187 + 13.1 کیلوبایت
قابلیت ویرایش:	دارد
تعداد صفحات:	100
فرمت فایل:	ورد
برچسب ها: تشخیص هرزنامه وب به کمک تکنیک های داده کاوی پایان نامه داده کاوی داده کاوی تشخیص هرزنامه با داده کاوی پایان نامه تشخیص هرزنامه با داده کاوی مقالات داده کاوی

جزئیــات فایل

جدیدترین‌ها

دانلود مبانی نظری زندگی سالمندان

دانلود مبانی نظری مزیت رقابتی

دانلود مبانی نظری در مورد مهارت ارتباط موثر

دانلود مبانی نظری اختلال افسردگی اساسی

دانلود پاورپوینت تبیین سند راهبردی توسعه روستایی

دانلود مبانی نظری هزینه ها و مدیریت استراتژیک آن

دانلود مبانی نظری فوتبال و نیازهای فیزیولوژیکی آن

دانلود مبانی نظری راهبردهای یادگیری شناختی

دانلود مبانی نظری احساس تعلق

دانلود تحقیق برون سپاری و مزایای آن

مبانی نظری سواد رسانه ای و تحول مفهومی آن

دانلود مبانی نظری حاکمیت و انواع حکومت ها

دانلود مبانی نظری تکنیک های خلاقیت

دانلود پاورپوینت سیره اخلاقى تربیتى امام خمینی

مبانی نظری توجه انتخابی و پیشینه تحقیقاتی آن

دانلود مبانی نظری بازاریابی و اهمیت مشتریان در بازار امروز

مبانی نظری بازده سهام و مدل های پیش بینی آن

دانلود مبانی نظری دولت الکترونیک

دانلود مبانی نظری مهارت های ذهنی

دانلود مبانی نظری و پیشینه تحقیق مالیه رفتاری

پاورپوینت روش ‌های اندازه‌ گیری میزان تخلخل و سطوح موثر

دانلود مبانی نظری تجارت سیار و ادبیات تحقیقی آن

پاورپوینت کلیات میکروبیولوژی ومعرفی میکروارگانیسم های محیط زیست

دانلود تحقیق زنجیره ارزش

تشخیص هرزنامه وب به کمک تکنیک های داده کاوی

محصولات مرتبط

دانلود مبانی نظری تجارت سیار و ادبیات تحقیقی آن

دانلود تحقیق تجارت الکترونیک و عوامل مربوط به آن

دانلود مبانی نظری منطق فازی و توضیح آن

دانلود مبانی نظری منطق فازی و تفاوت آن با سیستم های کلاسیک

دانلود مبانی نظری اینترنت اشیا

دانلود مبانی نظری سیستم‌های تشخیص نفوذ و انواع آن

دانلود مبانی نظری خوشه بندی و الگوریتم آن

دانلود مقاله جامع معماری سرویس گرا

آموزش نحوه شبیه سازی فیبر نوری در نرم افزار کامسل به زبان فارسی

آشنایی با پروتکل FTP

دانلود مقاله رباتها و کاربرد آنها

اصول و مبانی شبکه های حسگر بی سیم و شبکه های موردی

ارسال نظر