強化學習 8: approximate reinforcement learning

時間 2020-05-16

標籤強化學習 approximate reinforcement learning 简体版

原文原文鏈接

上次提到一個問題，就是如何有效的將交叉熵算法用於很大的數據量的問題上。web 前面說過，對於騎自行車這種可能只有十個 state，四個 aciton 的小問題上面，交叉熵能夠解決，但若是在自動駕駛，或者打遊戲上面，它卻不行，由於這時咱們沒有辦法再存儲一個表格來記錄全部可能狀態的全部可能行爲的機率，由於這可能有幾十億的狀態，或者是一個連續空間，是沒有辦法作記錄的。存儲這樣的表格不只是不可能的，也是

>>阅读原文<<