1種策略就能控制多類模型，華人大二學生提出RL泛化方法，LeCun認可轉發 | ICML 2020...

時間 2021-01-16

原文原文鏈接

蕭簫發自凹非寺量子位報道 | 公衆號 QbitAI 如果給你幾十甚至幾百種模型，讓你用1種策略對它們進行訓練，怎麼做？上圖中的這些智能體模型，不僅僅模擬「人」的動作，有些還代表着「四足動物」、「兩足動物」，亦或者是特殊形態的「機器人」的行爲。智能體，能進行自主活動的硬件或軟件實體。例如，可以是某種智能機器人。而所有的這些智能體，都能通過1種策略來表達。通過強化學習，模型中分散的肢體