機器學習算法——強化學習

時間 2020-12-30

原文原文鏈接

2016 年 3 月，谷歌公司 DeepMind 團隊的 AlphaGo 以 4 比 1 戰勝第 18 屆世界圍棋冠軍李世石，這是一場具有歷史意義的比賽。圖 1 圍棋落子位置種類讓電腦學會下圍棋是一件十分困難的事情，它有如圖 1 所示這麼多種可能的落子位置。在圍棋中獲勝不可能只靠簡單的蠻力，它需要技巧、創造力，以及類似職業棋手的直覺。通過融合深度強化學習網絡和最先進的樹搜索算法，AlphaG

>>阅读原文<<