David Silver深度強化學習第1課

強化學習本質上是要找到一種最優的方式來做決策。 強化學習涉及到很多學科領域,例如它是計算機科學中機器學習的一部分,工業中的優化控制,還有模擬神經科學中的獎勵機制的算法,心理學中的條件反射也是一種獎勵機制,數學中的運籌學,經濟學中的博弈論等,這些都是研究如何做決策能夠使效用最大化。 強化學習和其他機器學習方法的區別: There is no supervisor, only a reward sig
相關文章
相關標籤/搜索