強化學習筆記4-Python/OpenAI/TensorFlow/ROS-時間差分

時間差分學習(Temporal Difference Learing)python 預測,估計值函數;控制,優化值函數。git 離線:Q學習;在線:SARSA。github 智能體駕駛出租車。 總共有四個地點,智能體必須在一個地方接載一名乘客,而後在另外一個地方放下乘客。 智能體將得到+20分做爲成功下車的獎勵,而且每次得到的時間步數爲-1分。 非法接送和丟棄的智能體也將失去-10分。 所以,智能
相關文章
相關標籤/搜索