Reinforcement Learning and Markov decision processes 加強學習

時間 2020-12-30

原文原文鏈接

ReinforcementLearning and Control 在監督學習中，數據帶有標籤，標籤實際上就是對相應輸入的「絕對正確答案」，而在很多問題中，難以找到這樣的正確答案，決策過程分爲很多步，這時可以提供一個獎勵函數作爲反饋，當算法決策的好時進行獎勵，否則懲罰，此文先介紹馬爾可夫決策過程Markov decision processes (MDP)。馬爾可夫決策過程是一個五元組：(S,A

>>阅读原文<<