做者|Nathan Lambert
編譯|VK
來源|Towards Data Science算法
現代強化學習幾乎徹底集中在深度強化學習上。深度強化學習中的「深」一詞意味着在算法的核心方面使用神經網絡。神經網絡在學習過程當中進行一些高維近似。話雖如此,該模型並不須要具備許多層和特徵,這是一個廣泛的誤解,深層暗示了許多層。網絡
幾乎全部的課程和教程都假定你能夠微調簡單的神經網絡以近似狀態值或建立最終策略。從歷史上看,這些模型對如下全部訓練參數高度敏感:學習率,批量大小,模型參數,數據規範化等等。RL學習中有許多問題,最好的方法是學習監督學習,而後讓AutoML工具爲你完成工做。機器學習
從學習一些代碼開始,理解代碼全部內容,而後從新構建。這樣作幾回,你會學的很好。監督學習也是一項技能,在接下來的十年中,它將轉化爲計算機科學的大多數領域,所以請緊跟其後。工具
RL是策略空間中的一個搜索問題。近年來影響最大的論文都是從古老的搜索問題中獲得了嚴重的啓發。讓咱們來看看最近在RL最有影響力的三篇論文:性能
迄今爲止最主流的強化學習結果是:Deepmind掌握了許多遊戲,並進行了大規模強化學習。最近是利用規劃網絡來探索的將來行動(https://deepmind.com/research/publications/investigation-model-free-planning)學習
基於模型的RL的研究現狀:基於模型的策略優化(MBPO)。MBPO正在狀態做用空間的附近區域進行搜索,以得到更完整的知識。這種模擬的知識就像是一種簡單的探索。(https://arxiv.org/abs/1906.08253)優化
無模型的RL研究現狀:Soft Actor-critic (SAC)。SAC以有效勘探和高峯值性能相結合而聞名。它經過最大化策略上的熵項來實現這一點。做爲一個搜索問題,直接策略搜索是RL最關鍵的方面。人工智能
你能夠在加州大學伯克利分校和麻省理工學院的人工智能課程學習,試試作一兩個項目挑戰本身。.net
https://inst.eecs.berkeley.edu/~cs188/3d
注意,我並無說閱讀學術論文,關鍵是要可以理解它們。
學術領域變化迅速,天天都有論文在活躍的Twitter社區中公佈(說真的,關注幾位著名的研究人員——這對你跟上進度頗有幫助)。你須要學習的是把有影響力的論文與噪音區分開,把進步與炒做區分開。
它不是關於引用量,儘管我認可引用是一個很好的區別途徑。你應該關注的是實驗:它們是遵循提出問題、實驗、提出解決方案的軌跡,仍是隻是對另外一個方法的漸進改進?最好的論文尋找的是真理,而不是數字。
最好的研究是尋找最重要的問題,而無論學術討論的浪潮。學會辨別這些信號,你就能跟上這個領域的步伐,成爲將來十年有價值的人才。
我寫了不少關於強化學習的基本技能的教程,以後會發布出來。
原文連接:https://towardsdatascience.com/3-skills-to-master-before-reinforcement-learning-rl-4176508aa324
歡迎關注磐創AI博客站:
http://panchuang.net/
sklearn機器學習中文官方文檔:
http://sklearn123.com/
歡迎關注磐創博客資源彙總站:
http://docs.panchuang.net/