مسائل تصمیمگیری مارکف قابل مشاهده جزئی (POMDP) و کاربردهای آن
تعداد صفحات : 45 با فرمت وردو قابل ویرایش
فهرست مطالب
1- مقدمه
2- مفاهیم و تعاریف اولیه
2-1- تعریف عامل
2-2- ویژگیهای محیط
2-3- تعریف سیستم چندعامله
2-4- مدلهای مارکوف در سیستمهای چندعامله برای هماهنگی
2-4-1- فرآیند تصمیمگیری مارکف چندعامله (MMDP)
2-4-2- مسائل تصمیمگیری مارکف قابل مشاهده جزئی (POMDP)
2-4-2-1- چهارچوب POMDP
2-4-2-1- 1-تشریح مدل
2-4-2-1- 2-فضای حالت S
2-4-2-1-3- فضای عمل A
2-4-2-1-4- تابع انتقال T
2-4-2-1-5- فضای مشاهده Z
2-4-2-1-6- تابع پاداش R
2-4-2-1-7- افق H و فاکتور کاهش ϒ
2-4-3- Multi-agent POMDP
2-4-4- فرآیند تصمیمگیری تیمی چندعامله (MTDP)
2-4-5- بازیهای غیرقطعی قابل مشاهده جزئی (POSG)
2-4-6- مسائل ارضاء محدودیت توزیعشده (DCSP)
2-4- خلاصه
3- زمینههای کاربردی
3-1- هماهنگی چند عامل در مزایده
3-2- استفاده از POMDP در سیستم های چند عامل در زمینه مسیریابی شبکه
3-3- - یادگیری فعال در POMDP
3-4- فوتبال رباتها
3-5- هدایت مبتنی بر همکاری
3-6- کنترل ترافیک هوایی
3-7- مسیریابی و مدیریت شبکه
3-8- خلاصه
4- هماهنگی در سیستمهای چندعامله
4-1- روشهای ایجاد هماهنگی در سیستمهای چندعامله
4-2- خلاصه
5- ایجاد هماهنگی در سیستمهای چندعامله با استفاده از تکنیکهای یادگیری
5-1- یادگیری تقویتی
5-1-1- یادگیری تقویتی تکعامله
5-1-1-1- یادگیری Q
5-1-2- یادگیری تقویتی چندعامله
5-1-2-1- یادگیری مستقل
5-1-2-2- یادگیری عمل گروهی
5-1-3- انواع الگوریتمهای یادگیری تقویتی در سیستمهای چندعامله
5-1-3-1- الگوریتم یادگیری Minimax-Q
5-1-3-2- الگوریتم یادگیری Nash-Q
5-1-3-3- الگوریتم یادگیری Friend-or-Foe Q (FFQ)
5-1-3-4- الگوریتم یادگیری rQ
5-2- اتوماتای سلولی، اتوماتای یادگیر و اتوماتای یادگیر سلولی
5-2-1- اتوماتای سلولی
5-2-2- اتوماتای یادگیر
5-2-3- اتوماتای یادگیر سلولی
5-2-4- فعالیتهای انجامشده در زمینه استفاده از اتوماتای یادگیر در سیستمهای چندعامله
5-3- خلاصه
فهرست منابع
فهرست اشکال
شکل 1- ساختار عامل]1[
شکل 2- ساختار سیستم چندعامله ]1[
شکل 3- رده بندی مدلهای مختلف مارکوف بر حسب قابلیت مشاهده و ارتباط
شکل 4- مدل POMDP
شکل 5- ارتباط بین مدل های مختلف با DEC-POMDP
شکل 6- مدل عامل ها در DCSP
شکل 7- مدل یادگیری تقویتی
شکل8- مقادیر (1) ، (2) و (3) خطمشی بهینه حاصل از هریک از آنها
شکل9- شبهکد محاسبه مقادیر با استفاده از روش -LearningError! Bookmark not defined.
شکل 10- مدل یادگیری تقویتی چندعامله
شکل 11- لگوریتم یادگیری Minimax-Q
شکل 12- الگوریتم یادگیری Nash-Q
شکل 13- الگوریتم یادگیری rQ
شکل 14- ارتباط بین اتوماتای یادگیر و محیط
شکل 15- همسایگی ون نیومن ، مور ، اسمیت و کول
شکل 16- قانون 54