maching learning入門(六)

ml入門(六)powered by @李宏毅 第十五課(Reinforcement Learning) 讓機器根據不同的action將會得到不同的response,可能是不好的,也可能是好的。reinforcement learning要做到的事情就是讓reward最大化。 有時reward的情況是非常sparse的,大部分reward的返回都爲0。RL的難點在於如何在sparse的情況下得到好的
相關文章
相關標籤/搜索