【翻譯】Sklearn與TensorFlow機器學習實用指南 —— 第16章強化學習（下） ...

時間 2020-12-29

原文原文鏈接

本文來自雲棲社區官方釘羣「Python技術進階」，瞭解相關信息可以關注「Python技術進階」。時間差分學習與 Q 學習具有離散動作的強化學習問題通常可以被建模爲馬爾可夫決策過程，但是智能體最初不知道轉移概率是什麼（它不知道T），並且它不知道獎勵會是什麼（它不知道R）。它必須經歷每一個狀態和每一次轉變並且至少知道一次獎勵，並且如果要對轉移概率進行合理的估計，就必須經歷多次。時間差分學習（TD

>>阅读原文<<