DQN(Deep Reiforcement Learning) 發展歷程(一)

DQN發展歷程(一)函數

DQN發展歷程(二)學習

DQN發展歷程(三)優化

DQN發展歷程(四)htm

DQN發展歷程(五)blog

馬爾可夫理論

馬爾可夫性質

  • P[St+1 | St] = P[St+1 | S1,...,St]
  • 給定當前狀態 St ,過去的狀態能夠不用考慮
  • 當前狀態 St 能夠表明過去的全部狀態
  • 給定當前狀態的條件下,將來的狀態和過去的狀態相互獨立。

馬爾可夫過程(MP)

  • 形式化地描述了強化學習的環境。
  • 包括二元組(S,P)
  • 根據給定的轉移機率矩陣P,從當前狀態St轉移到下一狀態St+1,
  • 基於模型的(Model-based):事先給出了轉移機率矩陣P

馬爾可夫獎勵過程(MRP)

  • 和馬爾可夫過程相比,加入了獎勵r,加入了折扣因子gamma,gamma在0~1之間。
  • 馬爾可夫獎勵過程是一個四元組⟨S, P, R, γ⟩
  • 須要折扣因子的緣由是
    • 使將來累積獎勵在數學上易於計算
    • 因爲可能通過某些重複狀態,避免累積獎勵的計算成死循環
    • 用於表示將來的不肯定性
    • gamma越大表示越看中將來的獎勵

值函數(value function)

  • 引入了值函數(value function),給每個狀態一個值V,以從當前狀態St到評估將來的目標G的累積折扣獎勵的大小

MRP求解

  • v = R + γPv (矩陣形式)
  • 直接解出上述方程時間複雜度O(n^3), 只適用於一些小規模問題

馬爾可夫決策過程(MDP)

  • 加入了一個動做因素a,用於每一個狀態的決策
  • MDP是一個五元組⟨S, A, P, R, γ⟩
  • 策略policy是從S到A的一個映射

效用函數

  • 相比於值函數,加入了一個動做因素

優化的值函數

  • 爲了求最佳策略,在值函數求解時,選擇一個最大的v來更新當前狀態對應的v

貝爾曼等式

  • 和值函數的求解方法相比,不須要從當前狀態到目標求解,只須要從當前狀態到下一狀態便可(根據遞推公式)

參考

david siver 課程get

https://home.cnblogs.com/u/pinard/數學

相關文章
相關標籤/搜索