自然語言處理(六)詞向量

目的:把文本用數據的形式表達出來 方法:傳統基於規則,現代基於統計 一、詞編碼方式1——離散表示 1、One-hot編碼 和句子中順序無關,耗空間耗時 2、詞袋模型 每個數表示該詞出現的次數(One-hot的加和) 3、TF_IDF 每個數代表該詞在整個文檔中的佔比 4、N-gram 相鄰N個詞作爲一組進行編碼,缺點是浪費空間、無法衡量詞之間的關係 二、詞編碼方式2——分佈式表示 所謂分佈式表示,
相關文章
相關標籤/搜索