標強化學習基本假設之——回報函數假設

時間 2020-12-29

標籤強化學習人工智能简体版

原文原文鏈接

考慮以下命題：「我們所有目標和目的都可以通過最大化接收到的標量信號(也稱爲獎勵)和的期望來實現。」這是真的？假？一個定義？無法僞造？歡迎大家就該假設發表評論，一兩句也行。比如，「是的」，「不是的」。這是我最喜歡的「零假設」，以至於我有時將其簡稱爲零假設。對這個非常基本的問題所持有的立場是很關鍵的，這樣後面纔可以更清晰，明智地談論很多其他問題。邁克爾·利特曼（Michael Littman）

>>阅读原文<<

相關文章

相關標籤/搜索

連續統假設

網站建設指南

PHP 7 新特性

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<