توسعه یادگیری تقویتی پیوسته در مسائل مکانی توزیع یافته (مورد مطالعاتی: کنترل هوشمند چراغ های راهنمایی)

اصلانی, محمد; مسگری, محمدسعدی

نشریه مهندسی برق و الکترونیک ایران الکترونیک ایران

چهارشنبه 25 تیر 1404 | English [Archive]

Journal of Iranian Association of Electrical and Electronics Engineers

دوره 17، شماره 3 - ( مجله مهندسی برق و الکترونیک ایران - جلد 17 شماره 3 1399 ) جلد 17 شماره 3 صفحات 78-63 | برگشت به فهرست نسخه ها

‎ 20.1001.1.26765810.1399.17.3.13.9

Mendeley

Zotero

RefWorks

Aslani M, Saadi Mesgari M. Developing Continuous Reinforcement Learning in Distributed Spatial Problems (Case Study: Adaptive Traffic Control). Journal of Iranian Association of Electrical and Electronics Engineers 2020; 17 (3) :63-78
URL: http://jiaeee.com/article-1-1191-fa.html

اصلانی محمد، مسگری محمدسعدی. توسعه یادگیری تقویتی پیوسته در مسائل مکانی توزیع یافته (مورد مطالعاتی: کنترل هوشمند چراغ های راهنمایی). نشریه مهندسی برق و الکترونیک ایران. 1399; 17 (3) :63-78

URL: http://jiaeee.com/article-1-1191-fa.html

توسعه یادگیری تقویتی پیوسته در مسائل مکانی توزیع یافته (مورد مطالعاتی: کنترل هوشمند چراغ های راهنمایی)

محمد اصلانی^*

، محمدسعدی مسگری

دانشکده نقشه برداری- دانشگاه صنعتی خواجه نصیرالدین طوسی

چکیده: (2836 مشاهده)

سامانه های چند عامله به عنوان شاخه ای از هوش مصنوعی در سال های اخیر به عنوان یک نگرش برای مطالعه، بررسی و تحلیل پدیده هایی که دارای خصوصیاتی همچون توزیع یافتگی، پیچیدگی، پایین به بالا بودن و پویایی هستند در زمینه های مختلف از جمله ترافیک، حمل و نقل، اقتصاد، محیط زیست و مواردی از این دست به طور گسترده بکار گرفته شده اند. چالش اصلی در سامانه های چند عامله بدست آوردن رفتار مناسب برای تک تک عامل ها برای رسیدن به رفتار سطح بالای بهینه برای کل سامانه است. یادگیری تقویتی به عنوان رویکردی مناسب که به صورت خودکار و تدریجی می تواند رفتار بهینه را برای تمام عامل ها در تعامل با محیط بدست آورد،برای حل این چالش مناسب است. در یادگیری تقویتی عامل ها در طول زمان از طریق تعامل با محیط یاد میگیرند که در شرایط (حالات) مختلف چه اعمالی را انجام دهند که منجر به دریافت بیشترین سود شود. روش های رایج یادگیری تقویتی در مسائل دنیای واقعی که دارای تعداد حالات محیط بسیار بالا یا بی نهایت هستند عملکرد مناسبی ندارند زیرا این روش ها مقداری مجزا را برای ارزش هر زوج حالت-عمل در حافظه اختصاص می دهند وعامل برای بدست آوردن مقدار دقیق ارزش هر زوج حالت-عمل نیاز دارد که به دفعات ارزش آنها را مشاهده نماید. نوآوری تحقیق حاضر،حل چالش فوق از طریق یادگیری تقویتی پیوسته در مسائل مکانی با فضای حالت-عمل بزرگ و پیوسته است. در رویکرد یادگیری تقویتی پیوسته از مفهوم تعمیم برای تخمین ارزش حالت-عمل استفاده می شود. در این روش عامل نیازی به تجربه اندوزی مستقیم در تمام حالات محیط را ندارد و ارزش یک حالت با شباهت سنجی از ارزش سایر حالات مشابه، تخمین زده می شود. این روش ها برای شباهت سنجی نیاز به کد گذاری حالات محیط دارند که در این تحقیق ناحیه بندی فضا که دارای حجم محاسباتی پایینی است مورد استفاده قرار گرفت. در این تحقیق کنترل ترافیک (به طور خاص مدیریت چراغ های راهنمایی) که دارای پویایی و پیچیدگی بالایی است به عنوان مورد مطالعاتی مطلوب انتخاب شد.

واژه‌های کلیدی: سامانه های چند عامله، یادگیری تقویتی پیوسته، ناحیه بندی فضا و کنترل ترافیک.

متن کامل [PDF 2157 kb] (1462 دریافت)

نوع مقاله: پژوهشي | موضوع مقاله: کنترل
دریافت: 1395/2/6 | پذیرش: 1395/8/16 | انتشار: 1399/7/7

ارسال پیام به نویسنده مسئول

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License (CC BY NC 4.0) قابل بازنشر است.

کلیه حقوق این وب سایت متعلق به نشریه مهندسی برق و الکترونیک ایران می باشد.

طراحی و برنامه نویسی : یکتاوب افزار شرق

Designed & Developed by : Yektaweb

نشریه مهندسی برق و الکترونیک ایران الکترونیک ایران

پایگاه های مرتبط