網絡信息檢索(三)文本處理與索引

文章目錄 一、文本特性 1:文本的統計特性-zipf定律 2:詞彙表的變化規律-Heaps定律 二、文本操作 1:文本預處理 (1)文本預處理的時機 (2)文本預處理的步驟 2:詞彙分析 (1)英文詞法分析 (2)中文分詞技術 3:排除停用詞 4:詞幹提取 三、文本索引 1:索引在IR系統的位置 (1)爲什麼需要索引 (2)什麼樣的數據結構是合適的?前向索引? 2:倒排索引的思想 (1)**詞彙表
相關文章
相關標籤/搜索