深度强化学习
此条目需要扩充。 (2018年6月25日) |
深度强化学习(英语:Deep reinforcement learning,简称 Deep RL 或 DRL)是机器学习的一个子领域,结合了强化学习和深度学习。强化学习探讨如何在尝试错误的过程中让智能代理人学习做更好的决策。深度强化学习采用了深度学习的方法,让智能代理人可以直接基于非结构化资料来做决策,而不需要人为设计的状态空间。深度强化学习算法可以读取非常大的输入资料(像是电玩画面上的每个像素),来判断哪个动作可以达到最好的目标(像是最高的游戏分数)。深度强化学习已经有了广泛的应用,包括机器人学、电动游戏、自然语言处理、电脑视觉、教育、交通运输、金融、医疗卫生等等。[1]
概述
深度学习
深度学习是机器学习的一种,训练人工神经网络来将一组输入转换成一组特定的输出。深度学习常常以监督式学习的形式,用带有标签的资料集来做训练。深度学习的方法可以直接处理高维度、复杂的原始输入资料,相较于之前的方法更不需要人为的特征工程从输入资料中提取特征。因此,深度学习已经在电脑视觉、自然语言处理等领域上带来突破性的进展。
强化学习
强化学习是让智能代理人和环境互动,从中尝试错误以学习做出更好的决策。这类的问题在数学上常常用马可夫决策过程表示:在每个时间点,代理人处在环境的一个状态 ,在代理人采取了一个动作 之后,会收到一个奖励 ,并根据环境的状态转移函数 转移到下一个状态 。代理人的目标是学习一组策略 (也就是一组从当前的状态到所要采取的动作之间的对应关系),使得获得到的总奖励最大。与最佳控制不同,强化学习的算法只能透过抽样的方式来探测状态转移函数 。
深度强化学习
在很多现实中的决策问题里,马可夫决策过程的状态 的维度很高(例如:相机拍下的照片、机器人感测器的串流),限制了传统强化学习方法的可行性。深度强化学习就是利用深度学习的技术来解决强化学习中的决策问题,训练人工神经网络来表示策略 ,并针对这样的训练场景开发特化的算法。[2]
算法
如今已经有不少深度强化学习算法来训练决策模型,不同的算法之间各有优劣。粗略来说,深度强化学习算法可以依照是否需要建立环境动态模型分为两类:
- 模型基底深度强化学习算法:建立类神经网络模型来预测环境的奖励函数 和状态转移函数 ,而这些类神经网络模型可以用监督式学习的方法来训练。在训练好环境模型之后,可以用模型预测控制的方法来建立策略 。然而,因为环境模型不一定能完美地预测真实环境,代理人和环境互动的过程中常常需要重新规划动作。另外,也可以用蒙地卡罗树搜寻或交叉熵方法来依据训练好的环境模型规划动作。
- 无模型深度强化学习算法:直接训练类神经网络模型来表示策略 。这里的“无模型”指的是不建立环境模型,而非不建立任何机器学习模型。这样的策略模型可以直接用策略梯度(policy gradient)[3]训练,但是策略梯度的变异性太大,很难有效率地进行训练。更进阶的训练方法尝试解决这个稳定性的问题:可信区域策略最佳化(Trust Region Policy Optimization,TRPO)[4]、近端策略最佳化(Proximal Policy Optimization,PPO)[5]。另一系列的无模型深度强化学习算法则是训练类神经网络模型来预测未来的奖励总和 或 [6],这类算法包括时序差分学习、深度Q学习、SARSA。如果动作空间是离散的,那么策略 可以用枚举所有的动作来找出 函数的最大值。如果动作空间是连续的,这样的 函数无法直接建立策略 ,因此需要同时训练一个策略模型[7][8][9],也就变成一种“演员-评论家”算法。
应用
游戏
- 围棋:AlphaGo
- 国际象棋
机器人技术
- 机器人规划
智能城市
- 室内定位[10]
- 智能运输
参阅
参考文献
- ^ Francois-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle. An Introduction to Deep Reinforcement Learning. Foundations and Trends in Machine Learning. 2018, 11 (3–4): 219–354. Bibcode:2018arXiv181112560F. ISSN 1935-8237. S2CID 54434537. arXiv:1811.12560 . doi:10.1561/2200000071.
- ^ Mnih, Volodymyr; et al. Human-level control through deep reinforcement learning. Nature. 2015, 518 (7540): 529–533. Bibcode:2015Natur.518..529M. PMID 25719670. S2CID 205242740. doi:10.1038/nature14236.
- ^ Williams, Ronald J. Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning. Machine Learning. 1992, 8 (3–4): 229–256. S2CID 2332513. doi:10.1007/BF00992696 .
- ^ Schulman, John; Levine, Sergey; Moritz, Philipp; Jordan, Michael; Abbeel, Pieter. Trust Region Policy Optimization. International Conference on Machine Learning (ICML). 2015 [2021-12-15]. arXiv:1502.05477 . (原始内容存档于2022-01-02).
- ^ Schulman, John; Wolski, Filip; Dhariwal, Prafulla; Radford, Alec; Klimov, Oleg. Proximal Policy Optimization Algorithms. 2017 [2021-12-15]. arXiv:1707.06347 . (原始内容存档于2022-01-02).
- ^ Mnih, Volodymyr; et al. Playing Atari with Deep Reinforcement Learning (PDF). NIPS Deep Learning Workshop 2013. December 2013 [2021-12-15]. (原始内容存档 (PDF)于2014-09-12).
- ^ Lillicrap, Timothy; Hunt, Jonathan; Pritzel, Alexander; Heess, Nicolas; Erez, Tom; Tassa, Yuval; Silver, David; Wierstra, Daan. Continuous control with deep reinforcement learning. International Conference on Learning Representations (ICLR). 2016 [2021-12-15]. arXiv:1509.02971 . (原始内容存档于2022-01-02).
- ^ Mnih, Volodymyr; Puigdomenech Badia, Adria; Mirzi, Mehdi; Graves, Alex; Harley, Tim; Lillicrap, Timothy; Silver, David; Kavukcuoglu, Koray. Asynchronous Methods for Deep Reinforcement Learning. International Conference on Machine Learning (ICML). 2016 [2021-12-15]. arXiv:1602.01783 . (原始内容存档于2022-01-08).
- ^ Haarnoja, Tuomas; Zhou, Aurick; Levine, Sergey; Abbeel, Pieter. Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor. International Conference on Machine Learning (ICML). 2018 [2021-12-15]. arXiv:1801.01290 . (原始内容存档于2022-01-02).
- ^ Mohammadi, Mehdi; Al-Fuqaha, Ala; Guizani, Mohsen; Oh, Jun-Seok. Semisupervised Deep Reinforcement Learning in Support of IoT and Smart City Services. IEEE Internet of Things Journal. 2018, 5 (2): 624–635 [2018-06-25]. doi:10.1109/JIOT.2017.2712560. (原始内容存档于2019-06-01).