【翻譯】Sklearn與TensorFlow機器學習實用指南 —— 第16章 強化學習(下) ...

本文來自雲棲社區官方釘羣「Python技術進階」,瞭解相關信息可以關注「Python技術進階」。 時間差分學習與 Q 學習 具有離散動作的強化學習問題通常可以被建模爲馬爾可夫決策過程,但是智能體最初不知道轉移概率是什麼(它不知道T),並且它不知道獎勵會是什麼(它不知道R)。它必須經歷每一個狀態和每一次轉變並且至少知道一次獎勵,並且如果要對轉移概率進行合理的估計,就必須經歷多次。 時間差分學習(TD
相關文章
相關標籤/搜索