強化學習和自動編碼機

時間 2021-01-19

原文原文鏈接

softmax損失函數交叉熵函數： C = − ∑ i y i l n ( a i ) , a i 是 o u t p u t C = -\sum_i y_iln(a_i), ~~~ a_i是output C=−i∑yiln(ai), ai是output 「拯救公主」強化學習目標：找到這樣一中策略，使得所有步數產生的累計獎勵和最大。 Q-Learning Bellman方

>>阅读原文<<