spark-learn-01

spark是基於內存計算的分佈式大數據計算框架; spark執行特點 中間結果輸出到內存,而非硬盤; 抽象出分佈式內存存儲結構RDD; RDD支持粗粒度寫操作,同時對讀操作,能細化到每條記錄; 能控制數據在不同節點上的分區,即自定義分區策略; 不同stage之間會shuffle,shuffle是連接有依賴的stage的橋樑,上游stage輸出到下游stage必須經過shuffle,shuffle將
相關文章
相關標籤/搜索
本站公眾號
   歡迎關注本站公眾號,獲取更多信息