強化學習(問題集)

什麼是強化學習 強化學習是一種從行動中學習的計算方法。強化學習循環輸出state,action和reward的序列,agent的目的是最大化預計累計獎勵(expected cumulative reward) 爲何 Agent 的目標是最大化預期的累積獎勵 實際上,強化學習是基於獎勵假設的想法。全部目標均可以經過預期累積獎勵的最大化來描述。 gamma的折扣率 它必須介於0和1之間。越大,折扣越小
相關文章
相關標籤/搜索