深度強化學習綜述(上)

人工智能中的很多應用問題需要算法在每個時刻做出決策並執行動作。對於圍棋,每一步需要決定在棋盤的哪個位置放置棋子,以最大可能的戰勝對手;對於自動駕駛算法,需要根據路況來確定當前的行駛策略以保證安全的行駛到目的地;對於機械手,要驅動手臂運動以抓取到設定的目標物體。這類問題有一個共同的特點:要根據當前的條件作出決策和動作,以達到某一預期目標。解決這類問題的機器學習算法稱爲強化學習(reinforceme
相關文章
相關標籤/搜索