one hot encoding for sentenses

地址:http://www.cnblogs.com/Yolanda7171/ 目的:把文本用數據的形式表達出來 方法:傳統基於規則,現代基於統計 一、詞編碼方式1——離散表示 1、One-hot編碼 和句子中順序無關,耗空間耗時 2、詞袋模型 每個數表示該詞出現的次數(One-hot的加和) 3、TF_IDF 每個數代表該詞在整個文檔中的佔比 4、N-gram 相鄰N個詞作爲一組進行編碼,缺點是浪
相關文章
相關標籤/搜索