深度強化學習中文綜述-計算機學報_第1頁
已閱讀1頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、第 40 卷 計 算 機 學 報 Vol. 40 2017 年 論文在線出版號 No.1 CHINESE JOURNAL OF COMPUTERS Online Publishing No.1 ——————————————— 本課題得到國家自然科學基金項目(61472262, 61303108, 61373094, 61502323, 61502329)、蘇州市應用基礎研究計劃工業(yè)部分(SYG201422, S

2、YG201308)資助.劉全(通訊作者),男,1969 年生,博士,教授,博士生導師,中國計算機協(xié)會(CCF)高級會員,主要研究方向為強化學習、 深度強化學習和自動推理.E-mail:quanliu@suda.edu.cn. 翟建偉, 男, 1992 年生, 碩士研究生, 主要研究方向為強化學習、 深度學習和深度強化學習. 章宗長, 男, 1985 年生, 博士, 副教授, 計算機學會會員, 主要研究領域為部分感知的馬爾可夫決策過程、強

3、化學習和多 agent 系統(tǒng). 鐘珊,女,1983 年 生,博士研究生,主要研究方向為機器學習和深度學習. 周倩,女,1992 年生,碩士研究生,主要研究方向為強化學習.章鵬,男,1992 年生,碩士 研究生,主要研究方向為連續(xù)空間強化學習. 徐進,男,1991 年生,碩士研究生,主要研究方向為連續(xù)空間深度強化學習. 深度強化學習綜述 劉 全+ 翟建偉 章宗長 鐘珊 周 倩 章 鵬 徐

4、進 1)(蘇州大學計算機科學與技術學院 江蘇 蘇州 215006) 2)(軟件新技術與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心 南京 210000) 摘 要 深度強化學習是人工智能領域的一個新的研究熱點.它以一種通用的形式將深度學習的感知能力與強化學習的決策能力相結(jié)合,并能夠通過端對端的學習方式實現(xiàn)從原始輸入到輸出的直接控制.自提出以來,在許多需要感知高維度原始輸入數(shù)據(jù)和決策控制的任務中,深度強化學習方法已經(jīng)取得了實質(zhì)性的突破.該文首先闡述了 3 類主要

5、的深度強化學習方法,包括基于值函數(shù)的深度強化學習、基于策略梯度的深度強化學習和基于搜索與監(jiān)督的深度強化學習;其次對深度強化學習領域的一些前沿研究方向進行了綜述,包括分層深度強化學習、多任務遷移深度強化學習、多智能體深度強化學習、基于記憶與推理的深度強化學習等.最后總結(jié)了深度強化學習在若干領域的成功應用和未來發(fā)展趨勢. 關鍵詞 人工智能;深度學習;強化學習;深度強化學習 中圖法分類號 TP18 論文引用格式 論文引用格式:

6、 劉全,翟建偉,章宗長,鐘珊,周倩,章鵬,徐進,深度強化學習綜述,2017,Vol.40,在線出版號 No.1 LIU Quan, ZHAI Jian-Wei, ZHANG Zong-Zhang, ZHONG Shan, ZHOU Qian, ZHANG Peng, XU Jin, A Survey on Deep Reinforcement Learning, 2017,Vol.40,Online Publishing No.1 A

7、Survey on Deep Reinforcement Learning LIU Quan ZHAI Jian-Wei ZHANG Zong-Zhang ZHONG Shan ZHOU Qian ZHANG Peng XU Jin 1)(School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006) 2)(Coll

8、aborative Innovation Center of Novel Software Technology and Industrialization, Nanjing 210000) Abstract Deep reinforcement learning (DRL) is a new research hotspot in the artificial intelligence community. By using a g

9、eneral-purpose form, DRL integrates the advantages of the perception of deep learning (DL) and the decision making of reinforcement learning (RL), and gains the output control directly based on raw inputs by the end-to-e

10、nd learning process. DRL has made substantial breakthroughs in a variety of tasks requiring both rich perception of high-dimensional raw inputs and policy control since it was proposed. In this paper, we systematically d

11、escribe three main categories of DRL methods. Firstly, we summarize value-based DRL methods. The core idea behind them is to approximate the value function by using deep neural networks which have strong ability of perce

12、ption. We introduce an epoch-making value-based DRL method called Deep Q-Network (DQN) and its variants. These variants are divided into two categories: improvements of training algorithm and improvements of model archit

13、ecture. The first category includes Deep Double Q-Network (DDQN), DQN based on advantage learning technique, and DDQN with proportional prioritization. The second one includes Deep Recurrent Q-Network (DRQN) and a method

14、 based on Dueling Network architecture. In general, value-based DRL methods are good at dealing with large-scale problems with discrete action spaces. We then summarize policy-based DRL methods. Their powerful idea is to

15、 use deep neural networks to parameterize the policies and 論文在線出版號 No.1 劉全等:深度強化學習綜述 3 基于值函數(shù)的DRL基于策略梯度的DRL基于搜索與 監(jiān)督的DRLDLRLDRL的起步DRL的成功應用DRL的發(fā)展趨勢分層DRL多任務遷移DRL多智能體DRL基于記憶與推理的DRLDRL中探索與利用的平衡問題1、預備知識2、主要方法 3、前沿研究4、成功應用和發(fā)展趨

16、勢圖 2 本文的整體架構(gòu) 2 預備知識 預備知識 2.1 深度學習 DL 的概念源于人工神經(jīng)網(wǎng)絡 (Artificial Neural Network ,ANN ).含多隱藏層的多層感知器(Multi-Layer Perceptron, MLP) 是 DL 模型的一個典型范例.DL 模型通常由多層的非線性運算單元組合而成.其將較低層的輸出作為更高一層的輸入,通過這種方式自動地從大量訓練數(shù)據(jù)中學習抽象的特征表示,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征

17、[28].與淺層網(wǎng)絡相比,傳統(tǒng)的多隱藏層網(wǎng)絡模型有更好的特征表達能力, 但由于計算能力不足、 訓練數(shù)據(jù)缺乏、梯度彌散等原因,使其一直無法取得突破性進展.直到 2006 年,深度神經(jīng)網(wǎng)絡的研究迎來了轉(zhuǎn)機. Hinton 等人[29]提出了一種訓練深層神經(jīng)網(wǎng)絡的基本原則:先用非監(jiān)督學習對網(wǎng)絡逐層進行貪婪的預訓練,再用監(jiān)督學習對整個網(wǎng)絡進行微調(diào).這種預訓練的方式為深度神經(jīng)網(wǎng)絡提供了較理想的初始參數(shù),降低了深度神經(jīng)網(wǎng)絡的優(yōu)化難度.此后幾年,各種

18、 DL 模型被相繼提出.包括堆棧式自動編碼器[30-31](Stacked Auto-Encoder,SAE)、限制玻爾茲曼機 [32-33](Restricted Boltzmann Machine,RBM)、深度信念網(wǎng)絡[33-34](Deep Belief Network,DBN)、循環(huán)神經(jīng)網(wǎng)絡 [35-36](Recurrent Neural Network,RNN)等. 隨著訓練數(shù)據(jù)的增長和計算能力的提升,卷積神經(jīng)網(wǎng)絡(Con

19、volutional Neural Network,CNN)開始在各領域中得到廣泛應用.Krizhevsky 等人[2]在2012年提出了一種稱為AlexNet的深度卷積神經(jīng)網(wǎng)絡,并在當年的 ImageNet 圖像分類競賽中,大幅度降低了圖像識別的 top-5 錯誤率.此后,卷積神經(jīng)網(wǎng)絡朝著以下 4 個方向迅速發(fā)展: (1)增加網(wǎng)絡的層數(shù).在 2014 年,視覺幾何組(Visual Geometry Group,VGG)的 Simony

20、an等人[37]提出了 VGG-Net 模型,進一步降低了圖像識別的錯誤率.He 等人[38]提出了一種擴展深度卷積神經(jīng)網(wǎng)絡的高效方法; (2) 增加卷積模塊的功能. Lin 等人[39]利用多層感知卷積層替代傳統(tǒng)的卷積操作,提出了一種稱為 Network in Network(NIN)的深度卷積網(wǎng)絡模型.Szegedy 等人[40]在現(xiàn)有網(wǎng)絡模型中加入一種新穎的 Inception 結(jié)構(gòu),提出了 NIN 的改進版本GoogleNet,

21、并在 2014 年取得了 ILSVRC 物體檢測的冠軍; (3)增加網(wǎng)絡層數(shù)和卷積模塊功能.He 等人[41]提出了深度殘差網(wǎng)絡(Deep Residual Network,DRN),并在 2015 年取得了 ILSVRC 物體檢測和物體識別的雙料冠軍.Szegedy 等人[42]進一步將Inception 結(jié)構(gòu)與 DRN 相結(jié)合, 提出了基于 Inception結(jié)構(gòu)的深度殘差網(wǎng)絡(Inception Residual Network,

22、IRN).此后,He 等人[43]提出了恒等映射的深度殘差 網(wǎng) 絡 ( Identify Mapping Residual Network ,IMRN),進一步提升了物體檢測和物體識別的準確率; (4)增加新的網(wǎng)絡模塊.向卷積神經(jīng)網(wǎng)絡中加入循環(huán)神經(jīng)網(wǎng)絡[44](Recurrent Neural Network,RNN) 、 注意力機制[45] (Attention Mechanism, AM)等結(jié)構(gòu). 2.2 強化學習 RL 是一種從

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論