強化學習與Deep Q-Network(DQN)

強化學習的難點? 1.有監督?無監督?是有稀疏並延時的標籤---獎勵(reword) 2.信用分配問題,得分可能跟你現在的行爲沒有直接的關係(不好表述) 3.對於現有得分,搜索/不搜索   馬爾可夫決策過程 模型: 有限序列,狀態序列和行爲序列, 有確定假設:當前的狀態只由上一狀態決定,當前的決策過程只由當前的狀態決定(馬爾可夫過程假設) 具有無後效性,還是由假設得來的(馬爾可夫性)   把「眼光
相關文章
相關標籤/搜索