<?xml version="1.0" encoding="utf-8"?>
<journal>
<title>Journal of Iranian Association of Electrical and Electronics Engineers</title>
<title_fa>نشریه مهندسی برق و الکترونیک ایران</title_fa>
<short_title>Journal of Iranian Association of Electrical and Electronics Engineers</short_title>
<subject>Engineering &amp; Technology</subject>
<web_url>http://jiaeee.com</web_url>
<journal_hbi_system_id>1</journal_hbi_system_id>
<journal_hbi_system_user>admin</journal_hbi_system_user>
<journal_id_issn>2676-5810</journal_id_issn>
<journal_id_issn_online>2676-6086</journal_id_issn_online>
<journal_id_pii>8</journal_id_pii>
<journal_id_doi>10.61882/jiaeee</journal_id_doi>
<journal_id_iranmedex></journal_id_iranmedex>
<journal_id_magiran></journal_id_magiran>
<journal_id_sid>14</journal_id_sid>
<journal_id_nlai>8888</journal_id_nlai>
<journal_id_science>13</journal_id_science>
<language>fa</language>
<pubdate>
	<type>jalali</type>
	<year>1401</year>
	<month>1</month>
	<day>1</day>
</pubdate>
<pubdate>
	<type>gregorian</type>
	<year>2022</year>
	<month>4</month>
	<day>1</day>
</pubdate>
<volume>19</volume>
<number>2</number>
<publish_type>online</publish_type>
<publish_edition>1</publish_edition>
<article_type>fulltext</article_type>
<articleset>
	<article>


	<language>fa</language>
	<article_id_doi></article_id_doi>
	<title_fa>رانندگی خودکار در محیط بزرگراه مبتنی بر یادگیری سیاست با استفاده از روش‌های یادگیری تقویتی توزیعی</title_fa>
	<title>Policy-based Auto-Driving in Highway based on Distributional Reinforcement Learning Methods</title>
	<subject_fa>الکترونیک</subject_fa>
	<subject>Electronic</subject>
	<content_type_fa>پژوهشي</content_type_fa>
	<content_type>Research</content_type>
	<abstract_fa>&lt;span dir=&quot;RTL&quot;&gt;این مقاله به ارائه یک روش یادگیری مبتنی بر یادگیری تقویتی جهت طراحی یک ناظر به منظور رانندگی خودکار در محیط بزرگراه می&#8204;پردازد. با توجه به تصادفی بودن شرایط رانندگی در بزرگراه و همچنین درنظر گرفتن شرایط واقعی تر رانندگی، از مزایای یادگیری تقویتی توزیعی عمیق بهره گرفته شده است. در این مقاله برای اولین بار جهت یادگیری سیاست&#8204;های رانندگی استفاده از روش&#8204;های یادگیری تقویتی توزیعی تابع کمی تمام پارامتری شده &lt;/span&gt;&lt;strong&gt;(FQF)&lt;/strong&gt;&lt;span dir=&quot;RTL&quot;&gt; و شبکه کمی ضمنی &lt;/span&gt;&lt;strong&gt;&amp;nbsp;(IQN)&lt;/strong&gt;&lt;span dir=&quot;RTL&quot;&gt; پیشنهاد شده است. برای آموزش عامل، استفاده از داده&#8204;های دوربین، لیدار و ترکیب آن دو پیشنهاد شده است. به منظور استفاده از ترکیب دو نوع داده، ساختار شبکه چند ورودی را به خدمت گرفته ایم. جهت ارزیابی روش&#8204;های پیشنهاد شده، از شبیه ساز رانندگی در بزرگراه استفاده کرده ایم که در نرم افزار &lt;/span&gt;&lt;strong&gt;unity&lt;/strong&gt;&lt;span dir=&quot;RTL&quot;&gt; توسعه یافته است. تحقق خودروی خودران در شبیه ساز مورد نظر به کمک سیستم&#8204;های کمک راننده صورت پذیرفته است. ارزیابی عامل براساس یادگیری سیاست رانندگی که قادر به انتخاب عمل صحیح برای هدایت خودور باشد انجام شده است. به منظور ارزیابی بهتر روش&#8204;ها دو معیار تغییرات سرعت و تغییرات لاین را برای یادگیری سیاست رانندگی بررسی کرده&#8204;ایم. نتایج بدست آمده از مقاله با روش&#8204;هایی نظیر شبکه &lt;/span&gt;&lt;strong&gt;Q&lt;/strong&gt;&lt;span dir=&quot;RTL&quot;&gt; عمیق (&lt;/span&gt;&lt;strong&gt;DQN&lt;/strong&gt;&lt;span dir=&quot;RTL&quot;&gt;)،&lt;/span&gt;&lt;span dir=&quot;RTL&quot;&gt; شبکه &lt;/span&gt;&lt;strong&gt;Q&lt;/strong&gt;&lt;span dir=&quot;RTL&quot;&gt; عمیق رگرسیون کمی (&lt;/span&gt;&lt;strong&gt;QR-DQN&lt;/strong&gt;&lt;span dir=&quot;RTL&quot;&gt;) که پیش تر ارائه شده بود مقایسه گردید. نتایج بدست آمده نشان دهنده آن است که الگوریتم&#8204;های پیشنهادی توانایی یادگیری سیاست&#8204;های مناسب رانندگی در محیط بزرگراه را دارند. همچنین روش &lt;/span&gt;&lt;strong&gt;FQF&lt;/strong&gt;&lt;span dir=&quot;RTL&quot;&gt; عملکرد بهتری نیز نسبت به &lt;/span&gt;&lt;strong&gt;IQN&lt;/strong&gt;&lt;span dir=&quot;RTL&quot;&gt; و سایر روش&#8204;هایی که در گذشته پیاده سازی شده&#8204;اند از خود نشان می&#8204;دهد.&lt;/span&gt;</abstract_fa>
	<abstract>This paper presents reinforcement learning-based learning methods for designing a supervisor for automatic driving in the highway environment. Due to the random driving conditions on the highway as well as the more realistic driving conditions, the benefits of deep distributed reinforcement learning have been exploited. In this paper, for the first time, the use of Fully Parameterized Quantile Function (FQF) and Implicit Quantile Network (IQN) distributed learning methods is proposed to learn driving policies. To train the agent using the camera data, the LIDAR sensor and its combination are suggested. In order to use the combination of the two types of data, we have employed a multi-input network structure. To evaluate the proposed methods, we have used the highway driving simulator developed in unity software. The realization of the car in the simulator is done with the help of driver assistance systems. Agent evaluation is based on a learning driving policy that can choose the right action to steer the car. In order to better evaluate the methods, we have examined the two criteria of speed changes and lane changes for learning driving policy. The results obtained from the article were compared with methods such as DQN, &#8204;QR-DQN that were previously presented. The results show that the proposed algorithms can learn appropriate driving policies in the highway environment. The FQF method also performs better than IQN and other strategies implemented in the past.&lt;strong&gt;&lt;span dir=&quot;RTL&quot;&gt;&lt;/span&gt;&lt;/strong&gt;</abstract>
	<keyword_fa>یادگیری تقویتی توزیعی, خودرو خودران, سیستم‌‌های کمک راننده‬‬‬‬‬‬</keyword_fa>
	<keyword>distributional reinforcement learning, autonomous vehicle, driver assistance system</keyword>
	<start_page>209</start_page>
	<end_page>222</end_page>
	<web_url>http://jiaeee.com/browse.php?a_code=A-10-2292-1&amp;slc_lang=fa&amp;sid=1</web_url>


<author_list>
	<author>
	<first_name>Mahdi</first_name>
	<middle_name></middle_name>
	<last_name>Molaei</last_name>
	<suffix></suffix>
	<first_name_fa>مهدی</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>ملائی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>amirkhani@ieee.org</email>
	<code>100319475328460010456</code>
	<orcid>100319475328460010456</orcid>
	<coreauthor>No</coreauthor>
	<affiliation>Dept. of Electrical Engineering, School of Automotive Engineering, Iran University of Science and Technology</affiliation>
	<affiliation_fa>دانشکده مهندسی خودرو- دانشگاه علم و صنعت ایران</affiliation_fa>
	 </author>


	<author>
	<first_name>Abdollah</first_name>
	<middle_name></middle_name>
	<last_name>Amirkhani</last_name>
	<suffix></suffix>
	<first_name_fa>عبدالله</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>امیرخانی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>amirkhani@iust.ac.ir</email>
	<code>100319475328460010457</code>
	<orcid>100319475328460010457</orcid>
	<coreauthor>Yes
</coreauthor>
	<affiliation>Dept. of Electrical Engineering, School of Automotive Engineering, Iran University of Science and Technology</affiliation>
	<affiliation_fa>دانشکده مهندسی خودرو- دانشگاه علم و صنعت ایران</affiliation_fa>
	 </author>


</author_list>


	</article>
</articleset>
</journal>
