CS 188 Project3(RL) Q8: Bridge Crossing Revisited

首先,在無噪聲的BridgeGrid上用默認學習率訓練50次完全隨機的Q-learner學習,觀察是否找到最佳策略。 python gridworld.py -a q -k 50 -n 0 -g BridgeGrid -e 1 現在採用epsilon設置爲0做同樣的實驗。是否存在一個epsilon和一個學習率,在50次迭代之後,很可能(大於99%)會學習到最佳策略?analysis.py中的que
相關文章
相關標籤/搜索