強化學習在阿里的技術演講與業務創新

時間 2019-12-06

原文原文鏈接

當前的機器學習算法⼤致能夠分爲有監督的學習、⽆監督的學習和強化學習（Reinforcement Learning）等。強化學習和其餘學習⽅法不一樣之處在於強化學習是智能系統從環境到⾏爲映射的學習，以使獎勵信號函數值最⼤。若是智能體的某個⾏爲策略致使環境正的獎賞，那麼智能體之後產⽣這個⾏爲策略的趨勢便會增強。強化學習是最接近於⾃然界動物學習的本質的⼀種學習範式。然⽽強化學習從提出到如今，也差很少有半

>>阅读原文<<