【機器學習】強化學習

時間 2020-12-30

標籤機器學習简体版

原文原文鏈接

強化學習實際上是找一個從觀測到動作的最優映射函數，輸入是外界觀測，目標是獎勵最大化。強化學習的主要特點：學習過程中沒有監督信號，只要獎勵(reward) 其反饋(feedback)是延遲的而非瞬間的強化學習過程與時間序列相關，是一個序貫決策的過程 agent採取的動作(action)會影響到它所接受的序列數據強化學習算法分類： model-free RL(不理解環境)：不具備環境的先驗知識

>>阅读原文<<