分佈式計算框架MapReduce總結

時間 2021-01-12

原文原文鏈接

源自於Google的MapReduce論文，克隆複製發展而來優點：海量數據離線處理＆易開發＆易運行(與Spark比較還是弱很多) 缺點:難以滿足實時流式計算在跑MapReduce時，前面我的幾篇博客說的HDFS和YARN都必須先跑起來詞頻統計案例分析： wordcount: 統計文件中每個單詞出現的次數需求：求wc 文件內容小：shell(wc_shell.sh) 2）文件內容很大： TB

>>阅读原文<<