مسائل تصمیم‌گیری مارکف قابل مشاهده جزئی (POMDP)

مسائل تصمیم‌گیری مارکف قابل مشاهده جزئی (POMDP) و کاربردهای آن

تعداد صفحات : 45 با فرمت وردو قابل ویرایش

 

فهرست مطالب

1- مقدمه

2- مفاهیم و تعاریف اولیه

2-1- تعریف عامل

2-2- ویژگی‌های محیط

2-3- تعریف سیستم چندعامله

2-4- مدل‌های مارکوف در سیستم‌های چندعامله برای هماهنگی

2-4-1- فرآیند تصمیم‌گیری مارکف چندعامله (MMDP)

2-4-2- مسائل تصمیم‌گیری مارکف قابل مشاهده جزئی (POMDP)

2-4-2-1- چهارچوب POMDP

 2-4-2-1- 1-تشریح مدل

 2-4-2-1- 2-فضای حالت S

 2-4-2-1-3- فضای عمل A

 2-4-2-1-4- تابع انتقال T

     2-4-2-1-5- فضای مشاهده Z

     2-4-2-1-6- تابع پاداش R

 2-4-2-1-7- افق H و فاکتور کاهش ϒ

2-4-3- Multi-agent POMDP

2-4-4- فرآیند تصمیم‌گیری تیمی چندعامله (MTDP)

2-4-5- بازی‌های غیرقطعی قابل مشاهده جزئی (POSG)

2-4-6- مسائل ارضاء محدودیت توزیع‌شده (DCSP)

2-4- خلاصه

3- زمینه‌های کاربردی

3-1- هماهنگی چند عامل در مزایده

3-2- استفاده از  POMDP در سیستم های چند عامل در زمینه مسیریابی  شبکه 

3-3- - یادگیری فعال در  POMDP  

3-4- فوتبال ربات‌ها

3-5- هدایت مبتنی بر همکاری

3-6- کنترل ترافیک هوایی

3-7- مسیریابی و مدیریت شبکه

3-8- خلاصه

4- هماهنگی در سیستم‌های چندعامله

4-1- روش‌های ایجاد هماهنگی در سیستم‌های چندعامله

4-2- خلاصه

 

5- ایجاد هماهنگی در سیستم‌های چندعامله با استفاده از تکنیک­های یادگیری

5-1- یادگیری تقویتی

5-1-1- یادگیری تقویتی تک‌عامله

5-1-1-1- یادگیری Q

5-1-2- یادگیری تقویتی چندعامله

5-1-2-1- یادگیری مستقل

5-1-2-2- یادگیری عمل گروهی

5-1-3- انواع الگوریتم‌های یادگیری تقویتی در سیستم‌های چندعامله

5-1-3-1- الگوریتم یادگیری Minimax-Q

5-1-3-2- الگوریتم یادگیری Nash-Q

5-1-3-3- الگوریتم یادگیری Friend-or-Foe Q (FFQ)

5-1-3-4- الگوریتم یادگیری rQ

5-2- اتوماتای سلولی، اتوماتای یادگیر و اتوماتای یادگیر سلولی

5-2-1- اتوماتای سلولی

5-2-2- اتوماتای یادگیر

5-2-3- اتوماتای یادگیر سلولی

5-2-4- فعالیت‌های انجام‌شده در زمینه استفاده از اتوماتای یادگیر در سیستم‌های چندعامله

5-3- خلاصه

فهرست منابع

 

  

فهرست اشکال

شکل 1- ساختار عامل]1[

شکل 2- ساختار سیستم چندعامله ]1[

شکل 3- رده بندی مدلهای مختلف مارکوف بر حسب قابلیت مشاهده و ارتباط

شکل 4- مدل POMDP

شکل 5- ارتباط بین مدل های مختلف با DEC-POMDP

شکل 6- مدل عامل ها در DCSP

شکل 7- مدل یادگیری تقویتی

شکل8- مقادیر (1) ، (2)  و (3) خط‌مشی بهینه حاصل از هریک از آن‌ها

شکل9- شبه‌کد محاسبه مقادیر  با استفاده    از روش   -LearningError! Bookmark not defined.

شکل 10- مدل یادگیری تقویتی چندعامله

شکل 11- لگوریتم یادگیری Minimax-Q

شکل 12- الگوریتم یادگیری Nash-Q

شکل 13- الگوریتم یادگیری rQ

شکل 14- ارتباط بین اتوماتای یادگیر و محیط

شکل 15- همسایگی ون نیومن ، مور ، اسمیت و کول

شکل 16- قانون 54




ارسال نظر

  1. آواتار


    ارسال نظر
اس تی یو دانلود یک مرجع برای دانلود فایل های دانشجویی و درسی
در صورت بروز هر گونه مشکل در فرآیند خرید با شماره 09010633413 تماس حاصل فرمایید
همچنین در پیام رسان ایتا پاسخگوی شما هستیم
آمار فروشگاه
  •   تعداد فروشگاه: 13
  •   تعداد محصول: 14,339
  •   بازدید امروز : 6,964
  •   بازدید هفته گذشته: 186,413
  •   بازدید ماه گذشته: 884,124