對POMDP的認識

知識總結材料來源:https://www.zhihu.com/question/20683006           部分可觀察馬爾可夫決策過程(partially observable Markov decision processes,POMDP)是環境狀態部分可知動態不確定環境下序貫決策的理想模型,其核心點在於,agent無法知道自己所處的環境狀態,需要藉助於額外的傳感器,或者與其他的age
相關文章
相關標籤/搜索