信息檢索的知識點的整理

時間 2019-12-06

標籤信息檢索知識整理欄目搜索引擎简体版

原文原文鏈接

document：至關於數據塊裏的一條記錄數據庫

field: 至關於數據庫裏的一列函數

term: 指某個field的詞，英文單詞通常會轉詞的原型spa

tf：term在field內的詞頻率函數索引

df：term在全文檔集合內的頻率函數內存

idf：term在全文檔集合內的逆向頻率函數（通常取反再取log）ci

position info：倒排信息，通常含docid，tf和term在對應field出現的位置，索引存儲最佔空間的一部分文檔

query原型

布爾查詢hash

詞典：存term的結構，磁盤內通常用排好序的多級跳轉表，或者b+樹，內存裏實現用hash，紅黑樹或者字典樹it

正向關係：文檔——》包含的全部term

反向關係：term——》包含該term的全部文檔

topN：指最符合搜索條件的前N條結果，能夠用堆結構獲取最高的N條。

查全率

查準率

F測度

索引分割的好處

詞典的壓縮

倒排表的壓縮

倒排表的合併策略

Lucene的索引合併

BM25相關度打分

VSM相關度打分

詞項鄰近度打分

未完待續。。。

相關標籤/搜索