David Silver深度強化學習第1課

時間 2020-12-23

原文原文鏈接

強化學習本質上是要找到一種最優的方式來做決策。強化學習涉及到很多學科領域，例如它是計算機科學中機器學習的一部分，工業中的優化控制，還有模擬神經科學中的獎勵機制的算法，心理學中的條件反射也是一種獎勵機制，數學中的運籌學，經濟學中的博弈論等，這些都是研究如何做決策能夠使效用最大化。強化學習和其他機器學習方法的區別： There is no supervisor, only a reward sig

>>阅读原文<<