分散式部分可观察马尔可夫决策过程
此条目可参照英语维基百科相应条目来扩充。 (2022年4月25日) |
分散式部分可观察马尔可夫决策过程(英语:Decentralized partially observable Markov decision process,Dec-POMDP)[1][2]是一种多智慧体协调决策模型。这是一种概率模型,对于现实生活中结果、传感器和通信的不确定性具有很好的解决能力。
该模型是马尔可夫决策过程和部分可观察马可夫决策过程的泛化,适用于分布式多智慧体的情形。[3]
定义
正式定义
Dec-POMDP是一个7元组,其中:
- 是状态的集合,
- 是智慧体i的行动集合,其中 是联合行动的集合,
- 是是状态间条件转移概率的集合, ,
- 是回报函数,
- 是智慧体i的观察集合,其中 是联合观察的集合,
- 是一组条件观察概率,
- 是折现因子
参考文献
- ^ Bernstein, Daniel S.; Givan, Robert; Immerman, Neil; Zilberstein, Shlomo. The Complexity of Decentralized Control of Markov Decision Processes. Math. Oper. Res. November 2002, 27 (4): 819–840. ISSN 0364-765X. S2CID 1195261. arXiv:1301.3836 . doi:10.1287/moor.27.4.819.297.
- ^ Oliehoek, Frans A.; Amato, Christopher. A Concise Introduction to Decentralized POMDPs | SpringerLink (PDF). SpringerBriefs in Intelligent Systems. 2016 [2022-04-24]. ISBN 978-3-319-28927-4. S2CID 3263887. doi:10.1007/978-3-319-28929-8. (原始内容存档 (PDF)于2021-09-16) (英国英语).
- ^ Oliehoek, Frans A.; Amato, Christopher. A Concise Introduction to Decentralized POMDPs. Springer. 2016-06-03 [2022-04-24]. ISBN 978-3-319-28929-8. (原始内容存档于2022-04-24) (英语).