統計外站的搜索關鍵詞的詞頻

   統計外站的搜索關鍵詞的詞頻       經過外站的連接主要是百度,谷歌,soso等,天天都有經過記錄在日誌文件中,天天會運行程序進行統計。 天天產生有10多個文件,每一個文件1G左右, 每一個文件的每一行都存放的是用戶的query,每一個文件的query均可能重複。要按照解析query中的關鍵詞,並對統計其頻度,取出搜索次數最多的前1000個關鍵詞。 第一次直接遍歷全部文件並按照Map<St
相關文章
相關標籤/搜索