強化學習和自動編碼機

softmax損失函數 交叉熵函數: C = − ∑ i y i l n ( a i ) ,     a i 是 o u t p u t C = -\sum_i y_iln(a_i), ~~~ a_i是output C=−i∑​yi​ln(ai​),   ai​是output 「拯救公主」 強化學習目標: 找到這樣一中策略,使得所有步數產生的累計獎勵和最大。 Q-Learning Bellman方
相關文章
相關標籤/搜索