All In! 我學會了用強化學習打德州撲克

最近,強化學習(RL)的成功(如 AlphaGo)取得了大衆的高度關注,但其基本思路相當簡單。下面我們在一對一無限注德州撲克遊戲上進行強化學習。爲了儘可能清楚地展示,我們將從零開始開發一個解決方案,而不需要預設的機器學習框架(如 Tensorflow)。讓我們用 Python3 Jupyter notebook 開始吧! 問題設置 強化學習     特徵:的輸入(下文使用 Q^表示 Q hat)
相關文章
相關標籤/搜索