獨家 | 強化學習中的策略網絡vs數值網絡（附鏈接）

時間 2020-12-30

原文原文鏈接

在強化學習中，智能體（agent）在環境中進行一些隨機的抉擇，並從很多選擇中選擇最優的一個來達到目標，實現優於人類的水平。在強化學習中，策略網絡和數值網絡通常一起使用，比如蒙特卡洛樹搜索。這兩個網絡是探索蒙特卡洛樹搜索算法中的一個整體部分。因爲他們在迭代過程中被計算了很多次，所以也被叫做策略迭代和數值迭代，。接下來我們一起來理解這兩個網絡在機器學習中爲什麼如此重要，以及它們之間有什麼區別。什

>>阅读原文<<