空間向量模型和tf-idf

向量空間模型 向量空間模型是一個把文本文件表示爲標識符(比如索引)向量的代數模型,它應用於信息過濾、信息檢索、索引以及相關排序。 1 定義 文檔和查詢都用向量來表示: 每一維都對應於一個個別的詞組。如果某個詞組出現在了文檔中,那它在向量中的值就非零。已經發展出了不少的方法來計算這些值,這些值叫做(詞組)權重。其中一種最爲知名的方式是tf-idf權重(見下面的例子)。 詞組的定義按不同應用而定。典型
相關文章
相關標籤/搜索