強化學習是對英文Reinforced Learning的中文翻譯,它的另外一箇中文名稱是「加強學習」。相對於有監督學習和無監督學習,強化學習是一個相對獨特的分支;前二者偏向於對數據的靜態分析,後者傾向於在動態環境中尋找合理的行爲決策。算法
強化學習的行爲主體是一個在某種環境中獨立運行的Agent(能夠理解爲「機器人」), 其能夠經過訓練得到在該環境中的最佳行爲模式。強化學習被當作是最接近人工智能的一個機器學習領域。機器學習
思考:爲何說強化學習是最接近人工智能的一個機器學習領域?學習
1. 五個要素優化
強化學習的場景由兩個對象構成,它們是:人工智能
這兩個對象其實定義了機器人和其所能感知到的世界。而就像人類能在本身的世界中行走、享受陽光,機器人也能夠經過三種方式與其所在的環境交互:spa
以上五種強化學習要素的關係如圖1-12所示,它們在一塊兒構建起了強化學習的應用場景。翻譯
圖1-12 強化學習場景代理
另外,在強化學習中Reward有時是延時得到的。即Agent在作出某個Action後不會立刻得到Reward,而須要在一系列Action以後才能得到。每一個任務最終獲的Reward被稱爲value。好比在圍棋環境中,只有結果是勝是敗纔對以前的全部Action給出最終的value。對象
延遲得到value的本質分析的是一系列相關行爲共同發生的做用,也是強化學習與有監督學習最主要的一個不一樣點。試想若是每個Action均可以得到一個相應的Reward,那麼Reward就退化成了有監督學習中的label(標籤)。blog
2. 兩種場景與算法
具有上述五個要素的強化學習能夠用來解決兩類問題:
另外,還有個別算法兼具Policy-Based和Value-Based特色,好比Actor-Critic。
不得不認可的是,雖然強化學習是更智能的機器學習分支,但目前產品級應用還比較少,多集中在遊戲娛樂和簡單工業控制。本書將在第6章介紹隱馬爾可夫模型,第7章介紹以馬爾可夫收斂定理爲基礎的蒙特卡洛推理,在第10章詳細學習各種強化學習控制問題。
從機器學習,到深度學習
從深度學習,到強化學習
從強化學習,到深度強化學習
從優化模型,到模型的遷移學習
一本書搞定!