強化學習,深度學習,深度強化學習

1.深度學習:任何經過神經網絡的訓練和學習都是深度學習網絡 2.強化學習:基於MDP(馬爾可夫決策過程),經過狀態(state),決策(action),以及獎勵(reward)和轉化機率來進行學習的就是強化學習,經過求Q*(state,action),求pai*,複雜一點就可能不知道獎勵和轉化機率函數 3.深度強化學習:深度學習和強化學習的結合,就是經過定義一個函數Q(s,a)=w1*featur
相關文章
相關標籤/搜索