強化學習之Exploration - Exploitation Dilemma 1

時間 2021-01-20

原文原文鏈接

Exploration是探索如何選擇動作的潛在假設。例如，採取智能體之前從未採取的動作，Q-learning 中的貪婪策略就是基於這個思想會，設置一定的概率來採取之前沒有的動作。 Exploitation是利用已有的知識來更好地完成任務，根據當前已知情況獲得最大收益。例如一條路收益爲5，一條路收益爲10，這是兩條已知的路，狗狗會加油發現那個10的道路。但是還有一條收益爲15的道路狗狗探索不到，需要

>>阅读原文<<