標強化學習基本假設之——回報函數假設

考慮以下命題: 「我們所有目標和目的都可以通過最大化接收到的標量信號(也稱爲獎勵)和的期望來實現。」 這是真的?假?一個定義?無法僞造?歡迎大家就該假設發表評論,一兩句也行。比如,「是的」,「不是的」。 這是我最喜歡的「零假設」,以至於我有時將其簡稱爲零假設。對這個非常基本的問題所持有的立場是很關鍵的,這樣後面纔可以更清晰,明智地談論很多其他問題。 邁克爾·利特曼(Michael Littman)
相關文章
相關標籤/搜索