文本處理-分詞、向量化、TF-IDF理論和實現

分詞 在做文本挖掘的時候,首先要做的預處理就是分詞。英文單詞天然有空格隔開容易按照空格分詞,但是也有時候需要把多個單詞做爲一個分詞,比如一些名詞如「New York」,需要做爲一個詞看待。而中文由於沒有空格,分詞就是一個需要專門去解決的問題了。無論是英文還是中文,分詞的原理都是類似的,本文就對文本挖掘時的分詞原理做一個總結。 1. 分詞的基本原理     現代分詞都是基於統計的分詞,而統計的樣本內
相關文章
相關標籤/搜索