強化學習bellman求狀態價值筆記

現在求在State5狀態下的VAL 首先選擇a3操作的概率是0.5,即時獎勵是10,到達stop位 然後選擇a4操作的概率也是0.5,即時獎勵是1,還沒完  此時走到的位置往下走有三種可能  走第一條路的概率是0.2,目標點VAL是-1.3  走第二條路的概率是0.4,目標點VAL是2.7  走第三條路的概率是0.4,目標點VAL是7.4
相關文章
相關標籤/搜索