【機器學習】 強化學習

強化學習實際上是找一個從觀測到動作的最優映射函數,輸入是外界觀測,目標是獎勵最大化。 強化學習的主要特點: 學習過程中沒有監督信號,只要獎勵(reward) 其反饋(feedback)是延遲的而非瞬間的 強化學習過程與時間序列相關,是一個序貫決策的過程 agent採取的動作(action)會影響到它所接受的序列數據 強化學習算法分類: model-free RL(不理解環境):不具備環境的先驗知識
相關文章
相關標籤/搜索