NLP task2 N-Gram

N-Gram是一種基於統計語言模型的算法 N-Gram是一種基於統計語言模型的算法。它的基本思想是將文本里面的內容按照字節進行大小爲N的滑動窗口操作,形成了長度是N的字節片段序列。 每一個字節片段稱爲gram,對所有gram的出現頻度進行統計,並且按照事先設定好的閾值進行過濾,形成關鍵gram列表,也就是這個文本的向量特徵空間,列表中的每一種gram就是一個特徵向量維度。 n元語法模型是基於(n-
相關文章
相關標籤/搜索