獨家 | 強化學習中的策略網絡vs數值網絡(附鏈接)

在強化學習中,智能體(agent)在環境中進行一些隨機的抉擇,並從很多選擇中選擇最優的一個來達到目標,實現優於人類的水平。在強化學習中,策略網絡和數值網絡通常一起使用,比如蒙特卡洛樹搜索。這兩個網絡是探索蒙特卡洛樹搜索算法中的一個整體部分。 因爲他們在迭代過程中被計算了很多次,所以也被叫做策略迭代和數值迭代,。 接下來我們一起來理解這兩個網絡在機器學習中爲什麼如此重要,以及它們之間有什麼區別。 什
相關文章
相關標籤/搜索