強化學習算法
強化學習(Reinforcement Learning)是機器學習的一個重要的分支,主要用來解決連續決策的問題。強化學習能夠在複雜的、不肯定的環境中學習如何實現咱們設定的目標。網絡
深度學習框架
深度學習(Deep Learning)也是機器學習的一個重要分支,也就是多層神經網絡,經過多層的非線性函數實現對數據分佈及函數模型的擬合。(從統計學角度來看,就是在預測數據分佈,從數據中學習到一個模型,而後經過這個模型去預測新的數據)機器學習
深度強化學習函數
深度強化學習(Deep Reinforcement Learning)是一種用於作決策(Decision Making)學習的算法,深度學習善於作非線性擬合,強化學習適合作決策學習。兩者結合造成了深度強化學習算法。學習
定義:受到行爲心理學啓發,強化學習主要在關注智能體如何在環境中採起不一樣的行動,以最大限度地提升累積獎勵。blog
基本框架:智能體(Agent)、環境(Environment)、狀態(State)、動做(Action)、獎勵(Reward)遊戲
核心元素ci
所以,強化學習其實是智能體在與環境進行交互的過程當中,學會最佳決策序列。深度學習
著名的機器學習十大算法:
強化學習和機器學習的關係
區別
學習方式
監督學習
監督學習是對數據進行分析,找到數據的表達模型;而後利用這個模型,在新輸入的數據上進行決策(即主要分爲訓練階段和預測階段)。學習只發生在訓練階段,該階段會出現一個預測階段不會出現的監督信號。
強化學習
智能體在與環境的互動中,經過不斷探索與試錯的方式,利用基於正/負獎勵的方式進行學習。強化學習的學習過程與生物的天然學習過程很是類似。
先驗知識與標註數據
強化學習不須要像監督學習那樣依賴先驗知識數據,它經過自我博弈的方式產生更多的標準數據。強化學習能夠利用較少的訓練信息,讓系統自主學習補充更多信息使整個系統不受標註數據和先驗知識的限制。
拿圍棋遊戲來講,圍棋的棋譜數據很容易得到,這些數據都是人類玩家的動做行爲記錄。若是利用監督學習模型建模,模型模擬出的對弈技能頗有可能只侷限在所收集的有限棋譜內。當出現新的下棋方式時,模型可能就由於找不到全局最優解而棋力大減。強化學習模型則不一樣,它能夠利用系統自我學習和獎勵的方式,讓系統自動學習更多棋譜或者進行智能體間的博弈,這樣能夠爲系統補充更多棋譜信息,進而免受監督者的限制。