特徵工程之N-Gram(二)

1、N-Gram模型 (1)什麼是n-gram模型算法        N-Gram是一種基於統計語言模型的算法。它的基本思想是將文本里面的內容按照字節進行大小爲N的滑動窗口操做,造成了長度是N的字節片斷序列。性能        每個字節片斷稱爲gram,對全部gram的出現頻度進行統計,而且按照事先設定好的閾值進行過濾,造成關鍵gram列表,也就是這個文本的向量特徵空間,列表中的每一種gram就是
相關文章
相關標籤/搜索