DeepMind:所謂SACX學習範式

           機器人是否能應用於服務最終還是那兩條腿值多少錢,而與人交互,能真正地做「服務」工作,還是看那兩條胳膊怎麼工作。大腦的智能化還是非常遙遠的,還是先把感受器和效應器做好纔是王道。            關於強化學習,根據Agent對策略的主動性不同劃分爲主動強化學習(學習策略:必須自己決定採取什麼行動)和被動強化學習(固定的策略決定其行爲,爲評價學習,即Agent如何從成功與失敗
相關文章
相關標籤/搜索