分佈式計算框架MapReduce總結

源自於Google的MapReduce論文,克隆複製發展而來 優點:海量數據離線處理&易開發&易運行(與Spark比較還是弱很多) 缺點:難以滿足實時流式計算 在跑MapReduce時,前面我的幾篇博客說的HDFS和YARN都必須先跑起來 詞頻統計案例分析: wordcount: 統計文件中每個單詞出現的次數 需求:求wc 文件內容小:shell(wc_shell.sh) 2)文件內容很大: TB
相關文章
相關標籤/搜索