第五章模型和訓練 | 多智能體強化學習

時間 2021-07-14

標籤人工智能.量化投資深度學習神經網絡 tensorflow 機器學習數據挖掘简体版

原文原文鏈接

第五章模型和訓練 1、多智能體強化學習爲什麼需要多智能體（multi-agent）學習梯度下降算法尋優方法類似從山頂放置小球向下滾，希望尋找最快最好的路徑，到達最低的谷底。每個智能體每次只使用一個小球，學習訓練並使用一條路徑，重複多次。而多個智能體類似放置一羣小球，同時分別學習訓練並使用各自的多條路徑，向下滾動過程中互相聯繫通信，相互告知自己的位置及狀態，團隊合作，引導共同到達最低的谷底。

>>阅读原文<<