新詞彙:元學習/增強學習

/1強化學習/增強學習 Reinforcement Learning 參考 cs231n 14節課 深度增強學習 強化學習是一種無監督學習,即輸入數據x沒有label,需要找出隱藏的數據結構。Markov Decision Process(MDP,馬爾可夫決策過程)是強化學習的數學表示,滿足Markov 性,即當前狀態完全刻畫世界狀態。 馬爾可夫決策步驟: 1* t=0,初始狀態s0從p(s0)初
相關文章
相關標籤/搜索