強化學習--李宏毅

 AI =  強化學習+深度學習  Alpha go是在監督學習的基礎上,讓兩個機器對下 聊天機器人問題:訓練完之後不知道聊天是否聊的好,可以考慮使用GAN,添加discriminator去判斷聊天是否是人類聊天 強化學習的困難: 接收到positive reward的動作是需要其他沒有獎勵動作的基礎的,遊戲系統很容易學成只會開槍而不移動(因爲開槍有獎勵,而移動沒有) 系統需要探索新的行爲,不能永
相關文章
相關標籤/搜索