spark集羣計算

時間 2021-01-14

原文原文鏈接

摘要： MapReduce以及其的各種變種，在商業集羣上進行的對大規模密集型數據集的應用上已經取得了很大的成功。然而大多數這類系統都是圍繞着一個非迭代型的數據流模型，這種模型不適用於目前很多主流的應用程序。本文的研究側重於介紹其中這樣一類應用：重複使用跨多個並行操作的數據的工作流集合。這一類應用，包括了各種機器學習算法以及交互性數據分析工具。我們提出了一個名爲「spark」的新框架，

>>阅读原文<<