All In! 我學會了用強化學習打德州撲克

時間 2021-01-18

原文原文鏈接

最近，強化學習（RL）的成功（如 AlphaGo）取得了大衆的高度關注，但其基本思路相當簡單。下面我們在一對一無限注德州撲克遊戲上進行強化學習。爲了儘可能清楚地展示，我們將從零開始開發一個解決方案，而不需要預設的機器學習框架（如 Tensorflow）。讓我們用 Python3 Jupyter notebook 開始吧！問題設置強化學習特徵：的輸入（下文使用 Q^表示 Q hat）

>>阅读原文<<