CS 188 Project3(RL) Q8: Bridge Crossing Revisited

時間 2021-01-15

原文原文鏈接

首先，在無噪聲的BridgeGrid上用默認學習率訓練50次完全隨機的Q-learner學習，觀察是否找到最佳策略。 python gridworld.py -a q -k 50 -n 0 -g BridgeGrid -e 1 現在採用epsilon設置爲0做同樣的實驗。是否存在一個epsilon和一個學習率，在50次迭代之後，很可能（大於99%）會學習到最佳策略？analysis.py中的que