《機器學習》學習筆記（二十三）—初探強化學習

時間 2021-01-10

原文原文鏈接

強化學習的場景智能系統從環境到行爲映射的學習，以使獎勵信號(強化信號)函數值最大。如果Agent的某個行爲策略導致環境正的獎賞(強化信號)，那麼Agent以後產生這個行爲策略的趨勢便會加強有一個 agent ，他在一個環境中，行一個行爲，這個行爲改變了環境的值，agent 得到一個對應的獎勵。強化學習要做的就是去學習那些能得到正面反饋最大化的行爲。比如說，在下圍棋的時候，落一個子，然後棋盤的

>>阅读原文<<