《從機器學習到深度學習》筆記(3)強化學習

強化學習是對英文Reinforced Learning的中文翻譯,它的另外一箇中文名稱是「加強學習」。相對於有監督學習和無監督學習,強化學習是一個相對獨特的分支;前二者偏向於對數據的靜態分析,後者傾向於在動態環境中尋找合理的行爲決策。算法

強化學習的行爲主體是一個在某種環境中獨立運行的Agent(能夠理解爲「機器人」), 其能夠經過訓練得到在該環境中的最佳行爲模式。強化學習被當作是最接近人工智能的一個機器學習領域。機器學習

思考:爲何說強化學習是最接近人工智能的一個機器學習領域?學習

1. 五個要素優化

強化學習的場景由兩個對象構成,它們是:人工智能

  • 智能代理(Agent):是能夠採起一系列行動以達到某種目標的控制器,能夠形象的將其理解爲機器人大腦。好比自動駕駛的控制器、戰勝李世石的AlphaGo。
  • 環境(Environment):是Agent所能感知和控制的世界模型。對自動駕駛來講,Environment就是Agent所能感知到的路況和車自己的形式能力,對AlphaGo來講,Environment包括棋盤上的每種狀態和行棋規則。

這兩個對象其實定義了機器人和其所能感知到的世界。而就像人類能在本身的世界中行走、享受陽光,機器人也能夠經過三種方式與其所在的環境交互:spa

  • 狀態(State):是任意一個靜態時刻Agent能感知到的Environment狀況,至關於某一時刻人類五官能感知到的一切。
  • 行爲(Action):是Agent能在Environment中執行的行爲,對應於人類四肢所能作的全部事。
  • 反饋(Reward):是Agent執行某個/某些Action後得到的結果。Reward能夠是正向的或者是負向的,至關於人類感覺到的酸甜苦辣。

以上五種強化學習要素的關係如圖1-12所示,它們在一塊兒構建起了強化學習的應用場景。翻譯

 

圖1-12  強化學習場景代理

另外,在強化學習中Reward有時是延時得到的。即Agent在作出某個Action後不會立刻得到Reward,而須要在一系列Action以後才能得到。每一個任務最終獲的Reward被稱爲value。好比在圍棋環境中,只有結果是勝是敗纔對以前的全部Action給出最終的value。對象

延遲得到value的本質分析的是一系列相關行爲共同發生的做用,也是強化學習與有監督學習最主要的一個不一樣點。試想若是每個Action均可以得到一個相應的Reward,那麼Reward就退化成了有監督學習中的label(標籤)。blog

2. 兩種場景與算法

具有上述五個要素的強化學習能夠用來解決兩類問題:

  1. 狀態預測問題:用馬爾可夫過程估計在任一時刻各類狀態發生的可能性,其中蒙特卡洛模擬(Monte Carlo Method)是一類重要方法。
  2. 控制問題:如何控制Agent以得到最大Reward。其算法能夠分紅兩類:
  • 基於策略的學習(Policy-based):基於機率分佈學習行爲的可能性,根據可能性選擇執行的動做,可學習連續值或離散值類型行爲。典型算法是Policy Gradients。
  • 基於價值學習(Value-based):直接基於Reward學習行爲結果,只能學習離散類型行爲,包括算法Q-learning、Sarsa。

另外,還有個別算法兼具Policy-Based和Value-Based特色,好比Actor-Critic。

不得不認可的是,雖然強化學習是更智能的機器學習分支,但目前產品級應用還比較少,多集中在遊戲娛樂和簡單工業控制。本書將在第6章介紹隱馬爾可夫模型,第7章介紹以馬爾可夫收斂定理爲基礎的蒙特卡洛推理,在第10章詳細學習各種強化學習控制問題。

從機器學習,到深度學習

從深度學習,到強化學習

從強化學習,到深度強化學習

從優化模型,到模型的遷移學習

一本書搞定!

相關文章
相關標籤/搜索