強化學習之階段性任務和連續性任務3

階段性任務是設置一個停止點在階段停止的時候,agent回顧這一階段所獲得的回報,看他自己做得如何。然後在下一回合,在同樣的環境下,利用上一個階段的知識,採取更好的行動獲得最大的reward。例如 一盤棋下完就是一個階段,agent 從第一盤棋中獲取經驗,來下第二盤棋獲得更好地經驗。 連續任務是沒有停止點的,智能體必須邊學採取最佳動作,邊和環境交互。例如買賣股票,市場是一值存在的,所以不存在一個截至
相關文章
相關標籤/搜索