رانندگی خودکار در محیط بزرگراه مبتنی بر یادگیری سیاست با استفاده از روش‌های یادگیری تقویتی توزیعی

ملائی, مهدی; امیرخانی, عبدالله

doi:10.52547/jiaeee.19.2.207

نشریه مهندسی برق و الکترونیک ایران الکترونیک ایران

سه شنبه 23 تیر 1405 | English [Archive]

Journal of Iranian Association of Electrical and Electronics Engineers

دوره 19، شماره 2 - ( مجله مهندسی برق و الکترونیک ایران - جلد 19 شماره 2 1401 ) جلد 19 شماره 2 صفحات 222-209 | برگشت به فهرست نسخه ها

‎ 10.52547/jiaeee.19.2.207

‎ 20.1001.1.26765810.1401.19.2.24.2

Mendeley

Zotero

RefWorks

Molaei M, Amirkhani A. Policy-based Auto-Driving in Highway based on Distributional Reinforcement Learning Methods. Journal of Iranian Association of Electrical and Electronics Engineers 2022; 19 (2) :209-222
URL: http://jiaeee.com/article-1-1285-fa.html

ملائی مهدی، امیرخانی عبدالله. رانندگی خودکار در محیط بزرگراه مبتنی بر یادگیری سیاست با استفاده از روش‌های یادگیری تقویتی توزیعی. نشریه مهندسی برق و الکترونیک ایران. 1401; 19 (2) :209-222

URL: http://jiaeee.com/article-1-1285-fa.html

رانندگی خودکار در محیط بزرگراه مبتنی بر یادگیری سیاست با استفاده از روش‌های یادگیری تقویتی توزیعی

مهدی ملائی

، عبدالله امیرخانی^*

دانشکده مهندسی خودرو- دانشگاه علم و صنعت ایران

چکیده: (3920 مشاهده)

این مقاله به ارائه یک روش یادگیری مبتنی بر یادگیری تقویتی جهت طراحی یک ناظر به منظور رانندگی خودکار در محیط بزرگراه می‌پردازد. با توجه به تصادفی بودن شرایط رانندگی در بزرگراه و همچنین درنظر گرفتن شرایط واقعی تر رانندگی، از مزایای یادگیری تقویتی توزیعی عمیق بهره گرفته شده است. در این مقاله برای اولین بار جهت یادگیری سیاست‌های رانندگی استفاده از روش‌های یادگیری تقویتی توزیعی تابع کمی تمام پارامتری شده (FQF) و شبکه کمی ضمنی (IQN) پیشنهاد شده است. برای آموزش عامل، استفاده از داده‌های دوربین، لیدار و ترکیب آن دو پیشنهاد شده است. به منظور استفاده از ترکیب دو نوع داده، ساختار شبکه چند ورودی را به خدمت گرفته ایم. جهت ارزیابی روش‌های پیشنهاد شده، از شبیه ساز رانندگی در بزرگراه استفاده کرده ایم که در نرم افزار unity توسعه یافته است. تحقق خودروی خودران در شبیه ساز مورد نظر به کمک سیستم‌های کمک راننده صورت پذیرفته است. ارزیابی عامل براساس یادگیری سیاست رانندگی که قادر به انتخاب عمل صحیح برای هدایت خودور باشد انجام شده است. به منظور ارزیابی بهتر روش‌ها دو معیار تغییرات سرعت و تغییرات لاین را برای یادگیری سیاست رانندگی بررسی کرده‌ایم. نتایج بدست آمده از مقاله با روش‌هایی نظیر شبکه Q عمیق (DQN)، شبکه Q عمیق رگرسیون کمی (QR-DQN) که پیش تر ارائه شده بود مقایسه گردید. نتایج بدست آمده نشان دهنده آن است که الگوریتم‌های پیشنهادی توانایی یادگیری سیاست‌های مناسب رانندگی در محیط بزرگراه را دارند. همچنین روش FQF عملکرد بهتری نیز نسبت به IQN و سایر روش‌هایی که در گذشته پیاده سازی شده‌اند از خود نشان می‌دهد.

واژه‌های کلیدی: یادگیری تقویتی توزیعی، خودرو خودران، سیستم‌‌های کمک راننده‬‬‬‬‬‬

متن کامل [PDF 1025 kb] (2601 دریافت)

نوع مقاله: پژوهشي | موضوع مقاله: الکترونیک
دریافت: 1399/12/27 | پذیرش: 1400/6/16 | انتشار: 1401/4/3

ارسال پیام به نویسنده مسئول

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License (CC BY NC 4.0) قابل بازنشر است.

کلیه حقوق این وب سایت متعلق به نشریه مهندسی برق و الکترونیک ایران می باشد.

طراحی و برنامه نویسی: یکتاوب افزار شرق

Designed & Developed by : Yektaweb

نشریه مهندسی برق و الکترونیک ایران الکترونیک ایران

پایگاه های مرتبط