《機器學習》學習筆記(二十三)—初探強化學習

強化學習的場景 智能系統從環境到行爲映射的學習,以使獎勵信號(強化信號)函數值最大。如果Agent的某個行爲策略導致環境正的獎賞(強化信號),那麼Agent以後產生這個行爲策略的趨勢便會加強 有一個 agent ,他在一個環境中,行一個行爲,這個行爲改變了環境的值,agent 得到一個對應的獎勵。強化學習要做的就是去學習那些能得到正面反饋最大化的行爲。 比如說,在下圍棋的時候,落一個子,然後棋盤的
相關文章
相關標籤/搜索