Hadoop入門系列(三)在hadoop上建立簡單的倒排索引

在hadoop的框架中,剛入門我們維護好Mapper和Reducer兩個類就可以實現倒排索引。作爲練習可以下載20 Newsgroups數據 :http://qwone.com/~jason/20Newsgroups/。 這些文章是零散的,不適合在hadoop上跑,不過可以整合成一個或幾個大文件或者抽出一小部分測試一下。 親測:沒整合,在hadoop上跑所有的文章19997篇,16g內存差點跑爆、
相關文章
相關標籤/搜索