深度強化學習可使機器人超越人類!

前言算法

現在機器學習發展如此迅猛,各種算法層出不羣,特別是深度神經網絡在計算機視覺、天然語言處理、時間序列預測等多個領域更是戰果累累,能夠說這波浪潮帶動了不少人進入深度學習領域,也成就了其一番事業。網絡

而強化學習做爲一門靈感來源於心理學中的行爲主義理論的學科,其內容涉及機率論、統計學、逼近論、凸分析、計算複雜性理論、運籌學等多學科知識,難度之大,門檻之高,致使其發展速度特別緩慢。圍棋做爲人類的娛樂遊戲中複雜度最高的一個,它橫豎各有19條線,共有361個落子點,雙方交替落子,狀態空間高達 (注:宇宙中的原子總數是,即便窮盡整個宇宙的物質也不能存下圍棋的全部可能性)機器學習

Master(AlphaGo版本)於2016年12月開始出現於弈城圍棋網和騰訊野狐圍棋網,取得60連勝的成績,以其空前的實力轟動了圍棋界。函數

圍棋被攻克證實了強化學習發展的威力,做爲AlphoGo的帶頭人,強化學習界的大神,David Sliver及其團隊能夠說盛名遠揚,其之前沿的目光發表了人工智能的終極目標:學習

人工智能= DL(Deep Learning)+ RL(reinforcement learning) ==DRL測試

在深度學習已經取得了很大的進步的基礎上,深度強化學習真正的發展歸功於神經網絡、深度學習以及計算力的提高,David就是使用了神經網絡逼近值函數後,開啓了一門新的研究方向:深度強化學習(Deep Reinforcement Learning,DRL),又一發不可收拾的證實了肯定性策略等。人工智能

強化學習3d

強化學習是什麼?與咱們所學習的機器學習算法(SVM, 貝葉斯、決策樹)、深度學習(CNN、RNN、LSTM、GAN)等算法之間的又是什麼關係呢?這能夠說是每個初學者的疑惑。其實,強化學習相似於人類的學習方法(小孩學走路例子,如圖所示),其經過不斷試錯和嘗試的進行學習,並以作某件事帶來的獎勵做爲指導其行爲改善的基礎進行學習。cdn

它從根本上打破之前利用處理數據、選取算法模型、訓練與測試這種思惟,而是從策略、值函數、模型等角度進行解決問題。爲了可以利用數學的進行通用表達,以序列決策問題爲典型的馬爾科夫決策過程被普遍的使用。此外,動態規劃、蒙特卡羅、時序控制三種方法是探索馬爾科夫序列最佳策略的重要方法而被使用,並從控制的角度教智能體如何在有限的狀態下進行探索和利用。在以上的基礎上,策略梯度及神經網絡被普遍的應用於策略和值函數的逼近過程當中。blog

一般狀況下,人類的學習是在真實的環境下,但強化學習目前還不能普及到高複雜,具備邏輯推理與情感分析的階段,因此擁有一個仿真環境是強化學習學習的重要基礎。能夠說強化學習的成功來自於其在遊戲領域的成功,由於遊戲只涉及策略的決策,而不須要複雜的邏輯推理(圍棋計算落子機率)。

目前仿真環境比較多,著名的有OpenAI開發的Gym遊戲,Google DeepMind開發的dm_control套件等,Gym中有不少直接能夠訓練強化學習算法的小遊戲,其包括了經典的Atari, Box2D,Classic Control、MuJoCo、Robotics和Toy text等大類,每一個類中又包含不少小遊戲,例如:CartPole-V1等,在沒有人工干預的前提下,能夠用強化學習算法讓一個小車本身學會如何爬上山坡、也可讓一個看起來傻乎乎的多關節機器人跑起來(在沒有任何人類知道下完成)、還可讓一個打磚塊遊戲一路通關,讓機器人手臂拿起東西挪動在固定區域(搬東西)、讓遊戲小人教會如何滑雪得分以及不少文字生成的遊戲等。

但俗話說:"工欲善其事,必先利其器",安裝一個屬於本身的強化學習仿真環境是一件多麼炫酷的事,不再用在youtube上看別人家的遊戲,而是真正的在本身的機器上完成各類打怪升級,完成本身夢想。然而幸運中的不幸是,這些環境只能爲咱們提供一個特定的,驗證和提升算法、開發算法的基礎,這已經知足了大多數人的須要,對於那些想要在本身從事的領域、感興趣的領域作點事的同窗來講還遠遠不夠,須要獨立自定義一個真正屬於本身的開發環境,設置一個合理的獎勵方式、來解決一些實際的問題才能真正的有成就感。

相關文章
相關標籤/搜索