【閱讀筆記】《信息檢索導論》第二章 詞項詞典及倒排記錄表

【閱讀筆記】《信息檢索導論》第二章 詞項詞典及倒排記錄表 文檔分析及編碼轉換 詞項集合的確定 基於跳錶的倒排記錄錶快速合併算法 含位置信息的倒排記錄表及短語查詢 二元詞索引 位置信息索引 混合索引機制 文檔分析及編碼轉換 1、判斷文檔的編碼方式(ASCII,UTF-8等),將字節序列轉換成線性的字符序列 2、確定文檔的索引單位(索引粒度問題indexing granularity) *注:索引粒度
相關文章
相關標籤/搜索