第三章 3、3文本預處理之文本的表示(Word Representaion)

一、文本標識 單詞的標識 給定一個構建好的詞典庫,在詞典庫基礎之上,使用One-hot編碼:出現單詞的地方標1,沒出現的單詞標0 句子的表示 基於0/1:先對巨資進行分詞,然後對句子使用One-hot編碼。不統計出現的次數,出現就標1 基於計數:統計分詞之後單詞在詞典庫中出現的次數 二、計算相似度 句子用向量表示出來之後,就可以套用數學公式,向量是有方向的。 歐氏距離:歐幾里得距離。結果越小越好,
相關文章
相關標籤/搜索