強化學習 入門(二)

強化學習 入門(二) 一、Q-learning:Q-table 公式 : 更新規則:相當於以前有個old的值,現在又發現了個new的值,該用哪一個呢? 只用新的,相當於徹底放棄已有經驗。 只用老的,相當於不更新。 各取一半,相當於取個平均。 那就老規矩,加個權重,引入了權重 α ,得到了更新公式。 Qlatest=(1−α)Qold+αQnew=Qold+α(Qnew−Qold) Q[s,a]=Q
相關文章
相關標籤/搜索