Reinforcement Learning and Markov decision processes 加強學習

ReinforcementLearning and Control 在監督學習中,數據帶有標籤,標籤實際上就是對相應輸入的「絕對正確答案」,而在很多問題中,難以找到這樣的正確答案,決策過程分爲很多步,這時可以提供一個獎勵函數作爲反饋,當算法決策的好時進行獎勵,否則懲罰,此文先介紹馬爾可夫決策過程Markov decision processes (MDP)。 馬爾可夫決策過程是一個五元組:(S,A
相關文章
相關標籤/搜索