1種策略就能控制多類模型,華人大二學生提出RL泛化方法,LeCun認可轉發 | ICML 2020...

蕭簫 發自 凹非寺 量子位 報道 | 公衆號 QbitAI 如果給你幾十甚至幾百種模型,讓你用1種策略對它們進行訓練,怎麼做? 上圖中的這些智能體模型,不僅僅模擬「人」的動作,有些還代表着「四足動物」、「兩足動物」,亦或者是特殊形態的「機器人」的行爲。 智能體,能進行自主活動的硬件或軟件實體。例如,可以是某種智能機器人。 而所有的這些智能體,都能通過1種策略來表達。 通過強化學習,模型中分散的肢體
相關文章
相關標籤/搜索