強化學習（問題集）

時間 2019-12-10

標籤強化學習問題简体版

原文原文鏈接

什麼是強化學習強化學習是一種從行動中學習的計算方法。強化學習循環輸出state，action和reward的序列，agent的目的是最大化預計累計獎勵(expected cumulative reward) 爲何 Agent 的目標是最大化預期的累積獎勵實際上，強化學習是基於獎勵假設的想法。全部目標均可以經過預期累積獎勵的最大化來描述。 gamma的折扣率它必須介於0和1之間。越大，折扣越小

>>阅读原文<<