第五章 模型和訓練 | 多智能體強化學習

第五章 模型和訓練 1、多智能體強化學習 爲什麼需要多智能體(multi-agent)學習 梯度下降算法尋優方法類似從山頂放置小球向下滾,希望尋找最快最好的路徑,到達最低的谷底。 每個智能體每次只使用一個小球,學習訓練並使用一條路徑,重複多次。而多個智能體類似放置一羣小球,同時分別學習訓練並使用各自的多條路徑,向下滾動過程中互相聯繫通信,相互告知自己的位置及狀態,團隊合作,引導共同到達最低的谷底。
相關文章
相關標籤/搜索