Reinforcement Learning An Introduction~The 10-armed Testbed

2.3 10臂測試臺        爲了粗略的評估貪婪算法和ε-greedy 方法的相對有效性,我們通過一系列測試問題進行數值上的比較。這是一個2000次的隨機產生的10個臂的賭博問題。對於每個賭博機問題,就像圖2.1所示:                                                                                        
相關文章
相關標籤/搜索