بهینه سازی خوشه ها با استفاده از الگوریتم های تکاملی برای شخصی سازی وب

دانلود متن کامل پایان نامه مقطع کارشناسی ارشد رشته مهندسی کامپیوتر

گرایش : نرم افزار

عنوان : بهینه سازی خوشه ها با استفاده از الگوریتم های تکاملی برای شخصی سازی وب

تعداد صفحات : 82


چکیده:

گرانبار شدن اطلاعات یک مشکل عمده در وب کنونی به شمار می­رود. برای مقابله با این مشکل، سیستم‌های شخصی­ سازی وب ارائه شده­ اند که محتوا و سرویس­ های یک وب­ سایت را با افراد براساس علایق و رفتار گردشی آن­ها سازگار می­کنند. یک مؤلفه­ی اساسی در هر سیستم شخصی­سازی وب، مدل کاربر آن است. هدف از شخصی سازی وب، مهیا ساختن محتوا و سرویس ­های مورد نیاز کاربران به وسیله دانش به دست آمده از تعاملات قبلی کاربران در صفحات وب است. در حال حاضر، برای شخصی­ سازی وب چندین متد خوشه­ بندی در دسترس است. روش­هایی که تاکنون ارائه شده ­اند، در مواردی دارای اشکالاتی بودند. البته تکنیک­ های جدیدی در رفع این مشکلات و بهبود آنها ارائه شده است. اما در بیشتر این تکنیک­ها، مسائل افزونگی داده و مقیاس­ بندی بالا وجود دارد. با توجه به اینکه افزایش کاربران وب منجر به افزایش اندازه‌ی خوشه می‌گرد، نیاز به بهینه‌سازی خوشه‌ها اجتناب‌ناپذیر خواهد بود. در تحقیق، یک متدولوژی بهینه سازی خوشه بر اساس سیستم فازی ارائه شده است. به منظور افزایش دقت نهایی خوشه­ بندی، برای تنظیم پارامترهای توابع عضویت از الگوریتم ژنتیک استفاده شده است. نتایج حاصل از شبیه‌سازی نشان می‌دهد که روش پیشنهادی دقت خوشه­ بندی صفحات وب را تا حد قابل توجهی افزایش می­دهد.

فصل اول: کلیات تحقیق

1-1- مقدمه

با توسعه سیستم‌های اطلاعاتی، داده به یکی از منابع پراهمیت سازمان‌ها مبدل گشته است. بنابراین روش‌ها و تکنیک‌هایی برای دستیابی کارا به داده، اشتراک داده، استخراج اطلاعات از داده و استفاده از این اطلاعات، مورد نیاز می‌باشد. با ایجاد و گسترش وب و افزایش چشم گیر حجم اطلاعات، نیاز به این روش‌ها و تکنیک‌ها بیش از پیش احساس می‌شود. وب، محیطی وسیع، متنوع و پویا است که کاربران متعدد اسناد خود را در آن منتشر می‌کنند. در حال حاضر بیش از دو بیلیون صفحه در وب موجود است و این تعداد با نرخ 7.3 میلیون صفحه در روز افزایش می‌یابد. با توجه به حجم وسیع اطلاعات در وب، مدیریت آن با ابزارهای سنتی تقریباً غیر ممکن است و ابزارها و روش­هایی نو برای مدیریت آن مورد نیاز است. به طور کلی کاربران وب در استفاده از آن با مشکلات زیر روبرو هستند:

1- یافتن اطلاعات مرتبط: یافتن اطلاعات مورد نیاز در وب دشوار می‌باشد. روش‌های سنتی بازیابی اطلاعات که برای جستجوی اطلاعات در پایگاه داده‌ها به کار می‌روند، قابل استفاده در وب نمی‌باشند و کاربران معمولاً از موتورهای جستجو که مهم­ترین و رایج ترین ابزار برای یافتن اطلاعات در وب می باشند، استفاده می‌کنند. این موتورها، یک پرس و جوی مبتنی بر کلمات کلیدی از کاربر دریافت کرده و در پاسخ لیستی از اسناد مرتبط با پرس و جوی وی را که بر اساس میزان ارتباط با این پرس و جو مرتب شده اند، به وی ارائه می­کنند. اما موتورهای جستجو دارای دو مشکل اصلی هستند (Baeza-Yates, 2004). اولاً دقت موتورهای جستجو پایین است، چراکه این موتورها در پاسخ به یک پرس و جوی کاربر صدها یا هزاران سند را بازیابی می‌کنند، در حالی که بسیاری از اسناد بازیابی شده توسط آنها با نیاز اطلاعاتی کاربر مرتبط نمی‌باشند (Bharat, and et. al., 2001). ثانیاً میزان فراخوان این موتورها کم می‌باشد، به آن معنی که قادر به بازیابی کلیه اسناد مرتبط با نیاز اطلاعاتی کاربر نیستند. چرا که حجم اسناد در وب بسیار زیاد است و موتورهای جستجو قادر به نگهداری اطلاعات کلیه اسناد وب، در پایگاه داده‌های خود نمی‌باشند (Chakrabarti, and et. al., 1999).

2- ایجاد دانش جدید با استفاده از اطلاعات موجود در وب: در حال حاضر این سوال مطرح است که چگونه می‌توان داده‌های فراوان موجود در وب را به دانشی قابل استفاده تبدیل کرد، به طوری که یافتن اطلاعات مورد نیاز در آن به سادگی صورت بگیرد. همچنین چگونه می‌توان با استفاده از داده‌های وب به اطلاعات و دانشی جدید دست یافت.

3- خصوصی سازی اطلاعات: از آن جا که کاربران متفاوت هر یک درباره نوع و نحوه­ی بازنمایی اطلاعات سلیقه خاصی دارند، این مسئله باید توسط تأمین­ کنندگان اطلاعات در وب مورد توجه قرار بگیرد. برای این منظور با توجه به خواسته‌ها و تمایلات کاربران متفاوت، نحوه ارائه اطلاعات به آنها باید سفارشی گردد.

تکنیک‌های وب کاوی قادر به حل این مشکلات می‌باشند (Chakrabarti, 2000).

2-1- تعریف مسئله

وب به یک بخش تسلیم نشدنی جهان تبدیل شده است و گشت و گذار وب، یک فعالیت مهم برای مشتریانی که خرید آنلاین دارند، به شمار می­آید (Varghese, 2012). همانطور که گفته شد، با توجه به حجم وسیع اطلاعات در وب، مدیریت آن با ابزارهای سنتی تقریباً غیر ممکن است و ابزارها و روش­هایی نو برای مدیریت آن مورد نیاز است. یکی از این روش­ها وب­کاوی است. به طور کلی وب­کاوی را می­توان داده کاوی بر روی داده­های محتوا، ساختار و کاربرد وب به حساب آورد. هدف وب­کاوی کشف مدل­ها و الگوهای نهفته در منابع وب می­باشد. هدف وب کاوی کاربرد وب به طور خاص کشف الگوهای رفتاری کاربران وب می­باشد. کشف چنین الگوهایی از حجم عظیمی از داده­های تولید شده توسط وب سرورها کاربردهای مهمی دارد (Anand, and Mobasher, 2005). از جمله­ی آن­ها می­توان به سیستم­ هایی که میزان مؤثر بودن یک سایت را در برآوردن انتظارات کاربر ارزیابی می­کنند، تکنیک­ هایی برای متعادل کردن پویای بار و بهینه­سازی وب سرورها برای دستیابی مؤثرتر کاربران و کاربردهای مربوط به ساختاردهی مجدد و تطبیق یک سایت براساس نیازهای پیش بینی شده­ی کاربر اشاره کرد.

کشف استخراج اطلاعات مفید از داده­ی وب یا فایل­های وبلاگ، بهبود کارایی اطلاعات وب و فراهم کردن تکنولوژی برای کاربردهای وب به عنوان مثال، شخصی­سازی و غیره از جمله اهداف دیگر وب­کاوی می­باشد. برای مدیریت تصمیم­گیری، نتیجه کاوش کاربرد وب می­تواند برای تبلیغات، بهبود طراحی وب، بهبود رضایت مشتری، هدایت استراتژی تصمیم آنالیز بازار و سازمان مورد استفاده قرار گیرد (Naveena Devi et al., 2012).

در سال های اخیر تکنیک‌های وب­کاوی کاربرد وب به عنوان رویکردی دیگر که مبتنی بر کاربر است در شخصی­سازی وب ارائه شده است که برخی از مشکلات مربوط به فیلترکردن جمعی را کاهش می­دهد. به طور خاص وب کاوی کاربرد وب برای افزایش گسترش‌پذیری سیستم­ های شخصی­سازی شده­ی سنتی که برمبنای تکنیک­های فیلترکردن جمعی می­باشند استفاده شده است.

شخصی­سازی صفحه وب شامل خوشه­بندی صفحات مختلف وبی است که الگوی مشابهی دارند. شخصی­سازی وب از تکنیک کاربرد وب­ کاوی برای سفارشی کردن صفحات وب برای یک کاربر خاص استفاده می­کند. این مسئله شامل استخراج جلسات کاربر از فایل­های ورود به سیستم می­شود. یک جلسه کاربر، دنباله­ی صفحات وبی که توسط کاربر در یک دوره زمانی خاص مورد دسترسی قرار گرفته، می­باشد.

3-1- اهمیت و ضرورت تحقیق

با رشد ناگهانی اندازه وب و استفاده از وب گسترده جهانی، برای کاربران بسیار مشکل شد که بتوانند به طور مؤثر به اطلاعات مرتبط و مورد علاقه خود دسترسی پیدا کنند. نیاز به پیش­بینی نیازهای کاربر به منظور بهبود قابلیت استفاده و حفظ کاربر سایت، آشکار است و می­تواند با استفاده از شخصی­سازی آدرس­دهی شود. شخصی‌سازی وب، پردازشی از یک سایت برای بر طرف کردن نیاز یک کاربر خاص یا مجموعه­ای از کاربران با استفاده از دانش به دست آمده از طریق تحلیل رفتار گشت و گذار کاربر است. هدف از سیستم شخصی سازی وب، مهیا ساختن اطلاعات و نیازهای کاربران، بدون این که صریحاً از آنها سوالی پرسیده شود.

هر اقدامی که اطلاعات یا سرویس­های فراهم شده توسط یک وب­سایت با نیازهای یک کاربر یا گروه خاصی از کاربران با به کارگیری دانش بدست آمده از رفتار گردشی کاربر و علایق خاص او به صورت ترکیب با محتوا و ساختار وب­سایت سازگار می­کند شخصی ­سازی وب نامیده می­شود (Eirinaki, 2003).

بطور کلی اهداف شخصی­ سازی وب عبارتند از:

– شخصی ­سازی سرویس­های ارائه شده توسط یک وب­سایت نقش مهمی در کاهش گرانبار شدن اطلاعات ایفا می­کند و وب­سایت را به یک محیط کاربر پسندتر برای افراد تبدیل می­کند.

– با فراهم کردن اطلاعات دلخواه کاربر به روش مناسب و در زمان مناسب، باعث بهبود گردش کاربر در وب­ سایت می­شود.

– در تجارت الکترونیکی مکانیزیمی برای درک بهتر نیازهای مشتری، شناسایی تمایلات آینده­ی او و در نهایت افزایش پابرجایی مشتری به سرویس ارائه شده فراهم می­کند.

در سال های اخیر تکنیک‌های وب­کاوی کاربرد وب به عنوان رویکردی دیگر که مبتنی بر کاربر است در شخصی­سازی وب ارائه شده­ است که برخی از مشکلات مربوط به فیلترکردن جمعی را کاهش می­دهند. به طور خاص وب کاوی کاربرد وب برای افزایش گسترش پذیری سیستم­های شخصی­سازی شده­ی سنتی که برمبنای تکنیک­های فیلترکردن جمعی می­باشند استفاده شده است.

به طور نمونه شخصی سازی برروی پردازش شناسایی کاربر وب، جمع آوری اطلاعات از طریق اولویت یا علاقه­مندی های کاربر، تمرکز دارد. به طور مختصر شخصی­ سازی وب می­تواند برای مهیا ساختن سرویس با کیفیت­ تر استفاده شود و برنامه کاربردی از وب را برای کاربران در طول گشت و گذار آنها در وب مهیا سازد. این فعالیت­ها می­ تواند با مشخص کردن لینک­ها و لینک­های جدید مورد علاقه کاربر به صورت اتوماتیک و ایجاد صفحات ایندکس جدید، ساخته شود.

رویکرد تنها مبتنی بر کاربرد در شخصی­سازی وب یک عیب مهم دارد و آن این است که فرآیند توصیه به کاربر تنها براساس داده­های تراکنشی موجود او صورت می­گیرد و از این رو اقلام یا صفحاتی که اخیراً به سایت اضافه شده­اند نمی­توانند به او توصیه شوند. این مشکل عموماً مشکل قلم جدید نامیده می­شود. از سوی دیگر اگرچه الگوهای کشف شده­ی مربوط به کاربرد منابع وب از طریق وب­کاوی کاربرد وب در کشف ارتباطات اقلام با یکدیگر یا کاربران با یکدیگر و نیز تعیین شباهت در جلسات کاربر مفیدند اما بدون استفاده از دانش عمیق­تری از دامنه­ی وب سایت مورد نظر چنین الگوهایی درک اندکی از دلایل آن که چرا اقلام یا کاربران در گروه­ هایی با هم قرار می­گیرند در اختیار ما قرار می­دهند. یک رویکرد معمول برای حل این مشکل در فیلتر کردن جمعی آن است که مشخصات محتوای صفحات را با رتبه ­بندی­ ها و قضاوت­ های کاربر ادغام کنیم. به طور کلی در این رویکردها کلمات کلیدی از محتوای وب­سایت استخراج می­شوند و برای اندیس­گذاری صفحات براساس محتوا یا طبقه­بندی آن­ها به دسته­ های مختلف مورد استفاده قرار می‌گیرند. در حوزه­ی شخصی ­سازی وب این رویکرد به سیستم اجازه می ­دهد تا صفحات را نه تنها براساس افراد مشابه بلکه براساس شباهت محتوایی آن­ها به صفحاتی که کاربر اخیراً بازدید کرده است به او توصیه کند.

یک ضعف عمده در بیشتر رویکردهای موجود که از محتوای وب برای بهبود مدل کاربر استفاده می‌کنند این است که این روش­ها معمولاً از بردار عبارات برای نمایش علایق کاربر استفاده می­کنند و ارتباطات معنایی بین این عبارات را نادیده می­گیرند. در صورتی که می­توان با استفاده از معنا این روش نمایش را بهبود داد.

روش­هایی که تاکنون ارائه شده­اند، در مواردی دارای اشکالاتی بودند. البته تکنیک‌های جدیدی در رفع این مشکلات و بهبود آنها ارائه شده است. اما در بیشتر این تکنیک‌ها، مسائل افزونگی داده و مقیاس‌بندی بالا وجود دارد. الگوریتم­های خوشه­بندی متعددی براساس تکنیک­ های مختلف وجود دارد. بیشتر این الگوریتم ­ها، اشکالات متعددی دارند. همان­طور که اندازه خوشه در طی افزایش کاربران وب افزایش می‌یابد، نیاز به بهینه‌سازی خوشه ­ها اجتناب ناپذیر خواهد بود. در این پایان‌نامه قصد بر آنست تا یک متدولوژی بهینه‌سازی خوشه بر اساس سیستم فازی و الگوریتم ژنتیک ارائه شود.



فهرست مطالب:

چکیده

فصل اول

1-1-مقدمه

1-2-تعریف مسئله

1-3-اهمیت و ضرورت تحقیق

1-4-شیوه پژوهش

1-5-چارچوب پایان‏ نامه

مراجع

فصل دوم

2-1-مقدمه

2-2-مروی بر کارهای انجام شده

مراجع

فصل سوم

3-1-مقدمه

3-2-مراحل وب کاوی

3-2-1-انواع وب‌کاوی

3-3-شخصی‌سازی وب

3-3-1-دلایل نیاز به شخصی‌سازی وب

3-3-2-مراحل شخصی سازی وب

3-3-2-1-جمع‌آوری داده

3-3-2-2-پردازش داده

3-3-2-3-کشف الگو

3-3-2-4-تحلیل دانش

3-3-3-تکنیک های مدل­سازی کاربر در شخصی‌سازی وب

3-3-3-1-تکنیک tf-idf

3-3-3-2-تکنیک متا مدل و ابزار OLAP

3-3-3-3-تکنیک براساس محتوای وب

3-3-3-4-تکنیک براساس فراهم کردن داده‌های موثر (ODP)

3-3-3-5-شخصی­سازی وب با استفاده از روش­های ترکیبی

3-3-3-6-شخصی­سازی وب براساس الگوریتم استقرایی و تکنولوژی tf-idf

3-3-3-7-شخصی­سازی وب با استفاده از کندوکاو الگوی ترتیبی و درخت الگو

3-4-خوشه‌بندی برای شخصی‌سازی وب

3-4-1-خوشه­ بندی فازی

3-4-1-1-الگوریتم پایه‌ای خوشه‌بندی فازی

3-4-1-2-الگوریتم فازی کامینز

3-4-1-3-خوشه­بندی صفحات وب با استفاده از خوشه ­بندی فازی k-means

3-4-2-الگوریتم ژنتیک

3-4-2-1-بهینه‌سازی خوشه‌بندی فازی با استفاده از الگوریتم ژنتیک

3-4-3-روش پیشنهادی در این تحقیق

3-4-4-شمای کلی سیستم پیشنهادی

3-4-5-مثالی از سیستم پیشنهادی

3-4-6-شبه کد روش پیشنهادی

3-5-جمع­ بندی

مراجع

فصل چهارم

4-1-مقدمه

4-2-مجموعه داده­ ها

4-2-1-دیتاست YANDEX

4-2-1-1-پیش پردازش انجام شده با مجموعه داده­های خام قبل از انتشار

4-3-پارامترهای ارزیابی

4-4-آزمایشات انجام شده

4-4-1-سخت افزار مورد استفاده

4-4-2-نتایج آزمایشات

4-5-جمع ­بندی

مراجع

فصل پنجم

5-1-مقدمه

5-2-نتایج و دستاوردهای پروژه

5-3-پیشنهادات

مراجع



 




ارسال نظر

  1. آواتار


    ارسال نظر
اس تی یو دانلود یک مرجع برای دانلود فایل های دانشجویی و درسی
در صورت بروز هر گونه مشکل در فرآیند خرید با شماره 09010633413 تماس حاصل فرمایید
همچنین در پیام رسان ایتا پاسخگوی شما هستیم
آمار فروشگاه
  •   تعداد فروشگاه: 13
  •   تعداد محصول: 13,732
  •   بازدید امروز : 28,431
  •   بازدید هفته گذشته: 255,810
  •   بازدید ماه گذشته: 737,754