信息檢索——詞項詞典及倒排記錄表

詞項詞典及倒排記錄表   本章內容 收集詞項詞典的預處理 收集文檔 詞條化 應該把哪些詞放入索引? 倒排記錄表 快速處理:跳錶 含位置信息的倒排記錄表和短語查詢         分析文檔 需要處理每一個文檔的格式及語言 格式:PDF/excel/word/HTML... 語言 字符集:utf-8/gbk/gb2312....   索引粒度 可取的做法是將每章或每段看成一個微型文檔來建立索引,匹配單
相關文章
相關標籤/搜索