信息檢索的知識點的整理

 

 

document: 至關於數據塊裏的一條記錄數據庫

field: 至關於數據庫裏的一列函數

term: 指某個field的詞,英文單詞通常會轉詞的原型spa

tf:term在field內的詞頻率函數索引

df:term在全文檔集合內的頻率函數內存

idf:term在全文檔集合內的逆向頻率函數(通常取反再取log)ci

position info:倒排信息,通常含docid,tf和term在對應field出現的位置,索引存儲最佔空間的一部分文檔

query原型

布爾查詢hash

詞典:存term的結構,磁盤內通常用排好序的多級跳轉表,或者b+樹,內存裏實現用hash,紅黑樹或者字典樹it

正向關係:文檔——》包含的全部term

反向關係:term——》包含該term的全部文檔

topN:指最符合搜索條件的前N條結果,能夠用堆結構獲取最高的N條。

查全率

查準率

F測度

 

索引分割的好處

詞典的壓縮

倒排表的壓縮

倒排表的合併策略

Lucene的索引合併

 

BM25相關度打分

VSM相關度打分

詞項鄰近度打分

 未完待續。。。

相關文章
相關標籤/搜索