如何在Hadoop上跑通WordCount

時間 2021-01-10

原文原文鏈接

先整體上說一下整個流程是怎麼弄的。首先我們需要有WordCount.java源程序，輸入文檔file1.txt，裏面寫上幾行單詞。接着對該源文件進行編譯，編譯之後打包成jar。然後把file1傳到hadoop裏，接着把file1、jar包扔給hadoop讓他來幫我們統計每個單詞出現的次數，結果輸出在我們指定的路徑裏的part-r-00000。下面來看具體是怎麼操作的吧！首先，需要Hadoop

>>阅读原文<<