強化學習之階段性任務和連續性任務3

時間 2020-12-30

原文原文鏈接

階段性任務是設置一個停止點在階段停止的時候，agent回顧這一階段所獲得的回報，看他自己做得如何。然後在下一回合，在同樣的環境下，利用上一個階段的知識，採取更好的行動獲得最大的reward。例如一盤棋下完就是一個階段，agent 從第一盤棋中獲取經驗，來下第二盤棋獲得更好地經驗。連續任務是沒有停止點的，智能體必須邊學採取最佳動作，邊和環境交互。例如買賣股票，市場是一值存在的，所以不存在一個截至

>>阅读原文<<