強化學習與Deep Q-Network（DQN）

時間 2021-01-15

原文原文鏈接

強化學習的難點？ 1.有監督？無監督？是有稀疏並延時的標籤---獎勵（reword） 2.信用分配問題，得分可能跟你現在的行爲沒有直接的關係（不好表述） 3.對於現有得分，搜索/不搜索馬爾可夫決策過程模型：有限序列，狀態序列和行爲序列，有確定假設：當前的狀態只由上一狀態決定，當前的決策過程只由當前的狀態決定（馬爾可夫過程假設）具有無後效性，還是由假設得來的（馬爾可夫性）把「眼光

>>阅读原文<<