部分可观察马尔可夫决策过程此条目需要扩充。 (2010年10月9日)请协助改善这篇条目,更进一步的信息可能会在讨论页或扩充请求中找到。请在扩充条目后将此模板移除。 部分可观察马尔可夫决策过程(Partially Observable Markov Decision Process,缩写:POMDP),是一种通用化的马尔可夫决策过程。POMDP模拟代理人决策程序是假设系统动态由MDP决定,但是代理人无法直接观察目前的状态。相反的,它必须要根据模型的全域与部分区域观察结果来推断状态的分布。 因为POMDP架构的通用程度足以模拟不同的真实世界的连续过程,应用于机器人导航问题、机械维护和不定性规划。架构最早由研究机构所建立,随后人工智能与自动规划社群继续发展。