深度學習理論——信息量,信息熵,交叉熵,相對熵及其在機器學習中的應用

大家好,繼續理論學習,在我當年的一篇講softmax和LR迴歸的博客裏 就是這篇博客! 還有這篇! 在裏面只是簡單地講了交叉熵的公式,但是爲什麼深度學習當時要取最小的交叉熵來優化參數,其實我沒太明白,今天搞明白了,來記錄一下。 1.信息量 信息量的大小可以衡量事件的不確定性或發生的驚訝程度。一個事件發生的概率越小則其所含的信息量越大。設事件發生的概率爲P(x),則其信息量表示爲: 2.信息熵 對於
相關文章
相關標籤/搜索