倒排索引原理html
一些重要概念:搜索引擎
文檔(Document):通常搜索引擎的處理對象是互聯網網頁,而文檔這個概念要更寬泛些,表明以文本形式存在的存儲對象,相比網頁來講,涵蓋更多種形式,好比Word,PDF,html,XML等不一樣格式的文件均可以稱之爲文檔。再好比一封郵件,一條短信,一條微博也能夠稱之爲文檔。在本書後續內容,不少狀況下會使用文檔來表徵文本信息。.net
文檔集合(Document Collection):由若干文檔構成的集合稱之爲文檔集合。好比海量的互聯網網頁或者說大量的電子郵件都是文檔集合的具體例子。指針
文檔編號(Document ID):在搜索引擎內部,會將文檔集合內每一個文檔賦予一個惟一的內部編號,以此編號來做爲這個文檔的惟一標識,這樣方便內部處理,每一個文檔的內部編號即稱之爲「文檔編號」,後文有時會用DocID來便捷地表明文檔編號。htm
單詞編號(Word ID):與文檔編號相似,搜索引擎內部以惟一的編號來表徵某個單詞,單詞編號能夠做爲某個單詞的惟一表徵。對象
倒排索引(Inverted Index):倒排索引是實現「單詞-文檔矩陣」的一種具體存儲形式,經過倒排索引,能夠根據單詞快速獲取包含這個單詞的文檔列表。倒排索引主要由兩個部分組成:「單詞詞典」和「倒排文件」。blog
單詞詞典(Lexicon):搜索引擎的一般索引單位是單詞,單詞詞典是由文檔集合中出現過的全部單詞構成的字符串集合,單詞詞典內每條索引項記載單詞自己的一些信息以及指向「倒排列表」的指針。索引
倒排列表(PostingList):倒排列表記載了出現過某個單詞的全部文檔的文檔列表及單詞在該文檔中出現的位置信息,每條記錄稱爲一個倒排項(Posting)。根據倒排列表,便可獲知哪些文檔包含某個單詞。文檔
倒排文件(Inverted File):全部單詞的倒排列表每每順序地存儲在磁盤的某個文件裏,這個文件即被稱之爲倒排文件,倒排文件是存儲倒排索引的物理文件。 字符串
圖1 單詞-文檔矩陣
圖2 倒排索引模型
倒排索引實例:
以單詞「加盟」爲例,其單詞編號爲6,文檔頻率爲3,表明整個文檔集合中有三個文檔包含這個單詞,對應的倒排列表爲{(2;1;<4>),(3;1;<7>),(5;1;<5>)},含義是在文檔2,3,5出現過這個單詞,在每一個文檔的出現過1次,單詞「加盟」在第一個文檔的POS是4,即文檔的第四個單詞是「加盟」,其餘的相似。
注:單詞詞典,倒排列表是在構建索引時建立的;