強化學習之Exploration - Exploitation Dilemma 1

Exploration是探索如何選擇動作的潛在假設。例如,採取智能體之前從未採取的動作,Q-learning 中的貪婪策略就是基於這個思想會,設置一定的概率來採取之前沒有的動作。 Exploitation是利用已有的知識來更好地完成任務,根據當前已知情況獲得最大收益。例如一條路收益爲5,一條路收益爲10,這是兩條已知的路,狗狗會加油發現那個10的道路。但是還有一條收益爲15的道路狗狗探索不到,需要
相關文章
相關標籤/搜索