強化學習-馬爾科夫及Q-learning及python代碼實現

馬爾科夫決策過程 馬爾科夫決策過程由5個元素構成:python S:表示狀態集(states) A:表示一組動做(actions) P:表示狀態轉移機率.a表示在當前sES狀態下,通過aEA做用後,會轉移到的其餘狀態的機率分佈狀況 R:獎勵函數(reward function)表示agent採起某個動做後的即時獎勵46.2 y:折扣係數意味着當下的reward比將來反饋的reward更重要 1.智
相關文章
相關標籤/搜索