信息檢索之文檔評分、詞項權重計算及向量空間模型

一、主要內容:     在文檔規模很大的狀況下,知足布爾查詢的結果文檔數量可能很是多,每每會大大超過用戶可以瀏覽的文檔的數目。須要對搜索出來的文檔進行評分和排序。     ①、參數化索引及域索引的概念;目的:一、能夠經過元數據(文檔的做者、標題、出版日期等)來對文檔進行索引和檢索;二、上述索引可以提供一個簡單的文檔評分;     ②、詞項字在文檔中的權重的概念,並經過期出現的統計信息進行權重計算;
相關文章
相關標籤/搜索