RL分爲三大類:網絡
(1)經過行爲的價值來選取特定行爲的方法,具體 包括使用表格學習的 q learning, sarsa, 使用神經網絡學習的 deep q network; 學習
(2)直接輸出行爲的 policy gradients;sed
(3)瞭解所處的環境, 想象出一個虛擬的環境並從虛擬的環境中學習。神經網絡
另外一種分類方式:network
Model-free and Model-based rsa
Model-free:不理解環境方法