強化學習-馬爾科夫及Q-learning及python代碼實現

時間 2020-05-23

標籤強化學習 learning python 代碼實現欄目 Python 简体版

原文原文鏈接

馬爾科夫決策過程馬爾科夫決策過程由5個元素構成：python S：表示狀態集（states） A：表示一組動做（actions） P：表示狀態轉移機率.a表示在當前sES狀態下，通過aEA做用後，會轉移到的其餘狀態的機率分佈狀況 R：獎勵函數（reward function）表示agent採起某個動做後的即時獎勵46.2 y：折扣係數意味着當下的reward比將來反饋的reward更重要 1.智

>>阅读原文<<