從WordCount看Spark大數據處理的核心機制

大數據處理肯定是分佈式的了,那就面臨着幾個核心問題:可擴展性,負載均衡,容錯處理。Spark是如何處理這些問題的呢?接着上一篇的「動手寫WordCount」,今天要做的就是透過這個大數據界的HelloWorld來看看Spark隱藏了哪些魔法。 請各位看官,帶着分佈式的問題往下看。 分佈式架構 大數據時代,單機裝下PB級的數據,然後在可接受的時間內處理完,不可能,所以一定是分佈式的。 ▶ 分佈式存儲
相關文章
相關標籤/搜索