強化學習

時間 2020-12-27

原文原文鏈接

機器學習可以分爲三類，分別是 supervised learning，unsupervised learning 和reinforcement learning。而強化學習與其他機器學習不同之處爲：沒有教師信號，也沒有label。只有reward，其實reward就相當於label。反饋有延時，不是能立即返回。相當於輸入數據是序列數據。 agent執行的動作會影響之後的數據。強化學習的關鍵

>>阅读原文<<