chapter-14-強化學習

時間 2021-01-19

原文原文鏈接

深度Q學習以上是一個強化學習的標準模型，其邏輯爲環境(Environment)給出狀態(State)，智能體(agent)按照狀態做出動作(Action)，環境根據動作給予反饋(Reward)，並更新狀態。持續這一流程，直到外界干預或達到目標。我們可以用馬爾可夫決策(Markov property)來描述這個模型：在正式開始前，爲了能更好地解決問提，我們先定義以下幾個函數：有了bellma

>>阅读原文<<