深度強化學習day01初探強化學習

時間 2019-12-12

標籤深度強化學習 day01 day 初探简体版

原文原文鏈接

深度強化學習

基本概念

強化學習算法

強化學習（Reinforcement Learning）是機器學習的一個重要的分支，主要用來解決連續決策的問題。強化學習能夠在複雜的、不肯定的環境中學習如何實現咱們設定的目標。網絡
深度學習框架

深度學習（Deep Learning）也是機器學習的一個重要分支，也就是多層神經網絡，經過多層的非線性函數實現對數據分佈及函數模型的擬合。（從統計學角度來看，就是在預測數據分佈，從數據中學習到一個模型，而後經過這個模型去預測新的數據）機器學習
深度強化學習函數

深度強化學習（Deep Reinforcement Learning）是一種用於作決策（Decision Making）學習的算法，深度學習善於作非線性擬合，強化學習適合作決策學習。兩者結合造成了深度強化學習算法。學習

初探強化學習

定義：受到行爲心理學啓發，強化學習主要在關注智能體如何在環境中採起不一樣的行動，以最大限度地提升累積獎勵。blog
基本框架：智能體（Agent）、環境（Environment）、狀態（State）、動做（Action）、獎勵（Reward）遊戲

核心元素ci
- 智能體：強化學習的本體，做爲學習者和決策者。
- 環境：強化學習智能體之外的一切，主要由狀態集構成。
- 狀態：表示環境的數據。狀態集是環境中全部可能的狀態。
- 動做：智能體能夠作出的動做。動做集是智能體能夠作出的全部動做。
- 獎勵：智能體在執行一個動做後，得到的正/負獎勵信號。獎勵集是智能體能夠得到的全部反饋信息，正/負獎勵信號亦可稱做正/負反饋信號。
- 策略：強化學習是從環境狀態到動做的映射學習，該映射關係稱爲策略。（即：智能體選擇動做的思考過程爲策略）
- 目標：智能體自主尋找在連續時間序列裏的最優策略，而最優策略一般指最大化長期累積獎勵。

所以，強化學習其實是智能體在與環境進行交互的過程當中，學會最佳決策序列。深度學習

強化學習和機器學習

著名的機器學習十大算法：
1. 決策樹
2. 支持向量機SVM
3. 隨機森林
4. 邏輯迴歸
5. 樸素貝葉斯
6. KNN算法
7. K-means算法
8. AdaBoost算法
9. Apriori算法
10. PageRank算法
強化學習和機器學習的關係

強化學習和監督學習

區別
1. 二者學習方式不盡相同。
2. 二者所需的數據類型有差別，監督學習須要多樣化的標籤數據，強化學習則須要帶有回報的交互數據。
學習方式
- 監督學習
  
  監督學習是對數據進行分析，找到數據的表達模型；而後利用這個模型，在新輸入的數據上進行決策（即主要分爲訓練階段和預測階段）。學習只發生在訓練階段，該階段會出現一個預測階段不會出現的監督信號。
- 強化學習
  
  智能體在與環境的互動中，經過不斷探索與試錯的方式，利用基於正/負獎勵的方式進行學習。強化學習的學習過程與生物的天然學習過程很是類似。
先驗知識與標註數據

強化學習不須要像監督學習那樣依賴先驗知識數據，它經過自我博弈的方式產生更多的標準數據。強化學習能夠利用較少的訓練信息，讓系統自主學習補充更多信息使整個系統不受標註數據和先驗知識的限制。

拿圍棋遊戲來講，圍棋的棋譜數據很容易得到，這些數據都是人類玩家的動做行爲記錄。若是利用監督學習模型建模，模型模擬出的對弈技能頗有可能只侷限在所收集的有限棋譜內。當出現新的下棋方式時，模型可能就由於找不到全局最優解而棋力大減。強化學習模型則不一樣，它能夠利用系統自我學習和獎勵的方式，讓系統自動學習更多棋譜或者進行智能體間的博弈，這樣能夠爲系統補充更多棋譜信息，進而免受監督者的限制。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。