強化學習bellman求狀態價值筆記

時間 2021-01-16

標籤 2020年春招刷題简体版

原文原文鏈接

現在求在State5狀態下的VAL 首先選擇a3操作的概率是0.5，即時獎勵是10，到達stop位然後選擇a4操作的概率也是0.5，即時獎勵是1，還沒完此時走到的位置往下走有三種可能走第一條路的概率是0.2，目標點VAL是-1.3 走第二條路的概率是0.4，目標點VAL是2.7 走第三條路的概率是0.4，目標點VAL是7.4

>>阅读原文<<