特徵工程之N-Gram(二)

一、N-Gram模型 (1)什麼是n-gram模型        N-Gram是一種基於統計語言模型的算法。它的基本思想是將文本里面的內容按照字節進行大小爲N的滑動窗口操作,形成了長度是N的字節片段序列。        每一個字節片段稱爲gram,對所有gram的出現頻度進行統計,並且按照事先設定好的閾值進行過濾,形成關鍵gram列表,也就是這個文本的向量特徵空間,列表中的每一種gram就是一個特
相關文章
相關標籤/搜索