NLP基礎之詞過濾及詞轉向量的相關方法

1. 停用詞過濾 對於 NLP的應用,我們通常先把停用詞、出現頻率很低的詞彙過濾掉。類似於特徵篩選的過程。 少於10次或20次的可以作爲低頻詞去掉。   2. 詞的標準化操作(主要是英文) stemming:將類似詞轉換成統一格式,但詞不一定是實際詞。如 fli, deni。。。PORTSTEMMER lemmazation:與stemming區別是轉換成統一格式的詞,該詞是真實存在的。    
相關文章
相關標籤/搜索