強化學習--李宏毅

時間 2021-01-12

原文原文鏈接

AI = 強化學習+深度學習 Alpha go是在監督學習的基礎上，讓兩個機器對下聊天機器人問題：訓練完之後不知道聊天是否聊的好，可以考慮使用GAN，添加discriminator去判斷聊天是否是人類聊天強化學習的困難：接收到positive reward的動作是需要其他沒有獎勵動作的基礎的，遊戲系統很容易學成只會開槍而不移動（因爲開槍有獎勵，而移動沒有）系統需要探索新的行爲，不能永

>>阅读原文<<