強化學習離軌策略：從失敗中獲得成功經驗 - 以追女孩爲例 | 採樣率的數學意義

時間 2021-05-23

標籤 Reinforcement Learning 人工智能強化學習 off-policy off policy 數學欄目職業生涯简体版

原文原文鏈接

簡介：我一個朋友小拍，姐妹衆多，穩如老狗。姐妹們常疑惑：小拍同學會吃會玩會聊天，上知美妝，下知韓綜，中曉穿搭，做事靠譜，爲人頗有原則，竟然沒追成過一個女孩？要我說，這其實沒什麼可大驚小怪的，我剛認識小拍那陣子，他還是個鋼鐵小直男呢。用強化學習的角度看，小拍在這幾年做了很好的離軌策略（off-policy）學習，即從自己和別人「追女生」這個過程中學習經驗，無論結果成敗，都能有效地學到東西。本

>>阅读原文<<