動手學(3)

循環神經網絡 循環神經網絡的構造 one-hot向量 裁剪梯度 困惑度 我們通常使用困惑度(perplexity)來評價語言模型的好壞。困惑度是對交叉熵損失函數做指數運算後得到的值。特別地, 最佳情況下,模型總是把標籤類別的概率預測爲1,此時困惑度爲1; 最壞情況下,模型總是把標籤類別的概率預測爲0,此時困惑度爲正無窮; 基線情況下,模型總是預測所有類別的概率都相同,此時困惑度爲類別個數。 顯然,
相關文章
相關標籤/搜索