從WordCount看Spark大數據處理的核心機制

時間 2021-01-09

標籤大數據大數據開發大數據學習大數據入門 spark 欄目 Microsoft Office 简体版

原文原文鏈接

大數據處理肯定是分佈式的了，那就面臨着幾個核心問題：可擴展性，負載均衡，容錯處理。Spark是如何處理這些問題的呢?接着上一篇的「動手寫WordCount」，今天要做的就是透過這個大數據界的HelloWorld來看看Spark隱藏了哪些魔法。請各位看官，帶着分佈式的問題往下看。分佈式架構大數據時代，單機裝下PB級的數據，然後在可接受的時間內處理完，不可能，所以一定是分佈式的。 ▶ 分佈式存儲

>>阅读原文<<