如何理解RL中on-policy與off-policy

時間 2021-01-16

標籤強化學習人工智能简体版

原文原文鏈接

on-policy 和off-policy是強化學習中出現最多的兩個概念，也是最容易讓初學者迷惑的概念之一。網上很多博客都是從是否使用當前policy和其它policy角度出發解釋的，但是筆者認爲這樣解釋誠然正確但是總給人感覺看過之後還是茫茫然。今天我們就從另外的角度探討一下他們兩者的區別與聯繫。 On-policy methods attempt to evaluate or im

>>阅读原文<<