「強化學習說白了,是建立分佈到分佈之間的映射」?數學角度談談個人觀點

簡介:F學長是我數模競賽、科研方法道路上的最重要的啓蒙人之一。 去年他成功進入清華大學。巧的是,他的研究方向也是強化學習。 疫情期間,我們打過好幾輪長長的電話,討論強化學習,其中給我印象最爲深刻的是,他說: 「強化學習說白了,是建立分佈到分佈之間的映射。」 我從沒有聽過別人提這樣的觀點,這讓我靜下心來,去再次思考強化學習的數學假設。 我將在此對這個觀點進行分析。 本文結構 先說結論,我 同意 這個
相關文章
相關標籤/搜索