多智能體強化學習入門(七)——AC for CDec-POMDP 大規模規劃學習算法

Thien, Nguyen & Kumar, Akshat & Lau, Hoong. (2017). Policy Gradient With Value Function Approximation For Collective Multiagent Planning.web 內容詳見:https://zhuanlan.zhihu.com/p/66571753svg
相關文章
相關標籤/搜索