document: 至關於數據塊裏的一條記錄數據庫
field: 至關於數據庫裏的一列函數
term: 指某個field的詞,英文單詞通常會轉詞的原型spa
tf:term在field內的詞頻率函數索引
df:term在全文檔集合內的頻率函數內存
idf:term在全文檔集合內的逆向頻率函數(通常取反再取log)ci
position info:倒排信息,通常含docid,tf和term在對應field出現的位置,索引存儲最佔空間的一部分文檔
query原型
布爾查詢hash
詞典:存term的結構,磁盤內通常用排好序的多級跳轉表,或者b+樹,內存裏實現用hash,紅黑樹或者字典樹it
正向關係:文檔——》包含的全部term
反向關係:term——》包含該term的全部文檔
topN:指最符合搜索條件的前N條結果,能夠用堆結構獲取最高的N條。
查全率
查準率
F測度
索引分割的好處
詞典的壓縮
倒排表的壓縮
倒排表的合併策略
Lucene的索引合併
BM25相關度打分
VSM相關度打分
詞項鄰近度打分
未完待續。。。