方向

如果人工智能是一塊蛋糕,那麼強化學習是蛋糕上的一粒櫻桃,監督學習是外面的一層糖霜,無監督/預測學習則是蛋糕胚。目前我們只知道如何製作糖霜和櫻桃,卻不知如何製作蛋糕胚。 ————Yann LeCun 強化學習:從要完成的任務提取一個環境,從中抽象出狀態(state) 、動作(action)、以及執行該動作所接受的瞬時獎賞(reward)。   【簡介】https://blog.csdn.net/tr
相關文章
相關標籤/搜索