《introduction to information retrieval》信息檢索學習筆記2 詞項詞彙和倒排記錄表

第2章 詞項詞彙和倒排記錄表 回顧建立倒排索引的主要步驟: 1.收集要索引的文檔。 2.詞條化文本。 3.對詞條進行語言預處理,生成標準化詞條。 4.建立倒排索引,索引每個詞項出現的文檔。 2.1文檔描述和字符序列解碼 1.在文檔中獲取字符序列 文檔處理第一步:將文檔中的字節序列轉換成字符的線性序列 (1)確定編碼方案(可看作機器學習分類的問題,但通常通過啓發式方法、用戶選擇或使用提供的文檔元數據
相關文章
相關標籤/搜索