強化學習在阿里的技術演講與業務創新

時間 2021-01-19

原文原文鏈接

當前的機器學習算法⼤致可以分爲有監督的學習、⽆監督的學習和強化學習（Reinforcement Learning）等。強化學習和其他學習⽅法不同之處在於強化學習是智能系統從環境到⾏爲映射的學習，以使獎勵信號函數值最⼤。如果智能體的某個⾏爲策略導致環境正的獎賞，那麼智能體以後產⽣這個⾏爲策略的趨勢便會加強。強化學習是最接近於⾃然界動物學習的本質的⼀種學習範式。然⽽強化學習從提出到現在，也差不多有半個

>>阅读原文<<