7.阿爾法狗與強化學習算法

時間 2021-06-12

原文原文鏈接

7.1 人工智能的發展老一代人工智能深藍，使用窮舉法戰勝國際象棋大師 AlphaGo，圍棋的可能性要遠遠超過國際象棋，因此挑戰圍棋的新一代人工智能的進化採用了這麼長的時間。它沒有使用窮舉法，而是使用了類似決策樹的算法，即機器學習。機器學習區別於窮舉法的地方是，它僅取出若干可能性，再去計算新的可能 7.2～7.4 強化學習算法馬爾可夫決策樹策略與估值函數監督學習利用已有經驗，促使機器快速學