簡版Word2vec的理解

一. 預備知識 1.1 哈夫曼樹 (最優二叉樹) 哈夫曼樹 :帶權路徑長度之和(WPL)最小的二叉樹 。 WPL唯一,但哈夫曼樹不唯一,左右子樹可以交換。 權值越大的節點離根節點越近。 詞頻越大的詞離根節點越近。 構造過程中,每兩個節點都要進行一次合併。 因此,若葉子節點的個數爲n,則構造的哈夫曼樹中新增節點的個數爲n-1。 哈夫曼編碼:即滿足前綴編碼的條件,又能保證報文編碼總長最短。 前綴編碼:
相關文章
相關標籤/搜索