強化學習

1. 概括圖 2. 基本方式 1. 策略學習 Policy learning state->action 叫做一個policy 相當於每個state做了個action的分類,即找到最好的policy input: state(界面,圖片等) output: <action0, 70%>, <action1, 20%>, <action2, 10%>… 2. 價值迭代學習 確定方法:Q-learni
相關文章
相關標籤/搜索