python實現強化學習

時間 2020-12-24

原文原文鏈接

強化學習強化學習(reinforcement learning)，又稱再勵學習、評價學習，是一種重要的機器學習方法，強化學習是智能體（Agent）以「試錯」的方式進行學習，通過與環境進行交互獲得的獎賞指導行爲，目標是使智能體獲得最大的獎賞，強化學習不同於連接主義學習中的監督學習，主要表現在強化信號上，強化學習中由環境提供的強化信號是對產生動作的好壞作一種評價(通常爲標量信號)，而不是告訴強化學習

>>阅读原文<<