文本表示+向量空間模型

概念:文本挖掘算法不能直接在原始文本形式上處理。因此,在預處理階段,將文本轉化爲更易計算機識別的信息,即對文本進行形式化處理。 模型:向量空間模型;概率模型;概念模型; 向量空間模型 1、主要步驟 (1)將文本的基本語言單位(字、詞、詞組、短語)抽取,組成特徵項,用tn表示 (2)將tn按在文本中的重要性給出權重wn (3)將文本抽象爲(t1,w1,t2,w2,……,tn,wn)簡化爲(w1,w2
相關文章
相關標籤/搜索