強化學習筆記3-Python/OpenAI/TensorFlow/ROS-規劃博弈

規劃:主要涉及馬爾科夫決策(MDP),經常使用於已知環境求解;python 博弈:主要涉及蒙特卡羅方法,經常使用於未知狀態求解。web 基礎知識點: Markov Decision Processes-MIT https://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-825-techniques-in-art
相關文章
相關標籤/搜索