Reinforcement Learning An Introduction~The 10-armed Testbed

時間 2021-01-02

標籤強化學習简体版

原文原文鏈接

2.3 10臂測試臺爲了粗略的評估貪婪算法和ε-greedy 方法的相對有效性，我們通過一系列測試問題進行數值上的比較。這是一個2000次的隨機產生的10個臂的賭博問題。對於每個賭博機問題，就像圖2.1所示：

>>阅读原文<<

相關文章

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<