強化學習筆記4-Python/OpenAI/TensorFlow/ROS-時間差分

時間 2019-12-05

標籤強化學習筆記 python openai tensorflow ros 時間差分欄目 Python 简体版

原文原文鏈接

時間差分學習（Temporal Difference Learing）python 預測，估計值函數；控制，優化值函數。git 離線：Q學習；在線：SARSA。github 智能體駕駛出租車。總共有四個地點，智能體必須在一個地方接載一名乘客，而後在另外一個地方放下乘客。智能體將得到+20分做爲成功下車的獎勵，而且每次得到的時間步數爲-1分。非法接送和丟棄的智能體也將失去-10分。所以，智能

>>阅读原文<<