基於文本知識庫的強化學習技術——Learning to Win by Reading Manuals in a Monte-Carlo Framework

論文鏈接:http://people.csail.mit.edu/branavan/papers/acl2011.pdf 文章目錄 1. 背景介紹 2. 將攻略文本引入值函數 Q ( s , a ) Q(s, a) Q(s,a) 評價 2.1 複雜環境下使用傳統 Q ( s , a ) Q(s, a) Q(s,a) 函數的缺陷 2.2 設計 Q ( s , a , d ) Q(s, a, d) Q
相關文章
相關標籤/搜索