理解Spark之一——stage劃分

  我們首先知道Spark的基本執行流程,簡化來說,當提交一個Spark程序,HDFS上的每個Block對應一個分區、一個Task任務,這個Task任務就是在跑我們開發是Spark程序,程序中是我們使用的一個個算子。   在算子中,又可以劃分成爲兩種,一種是寬依賴、一種是窄依賴,它們和stage的關係就是寬依賴是劃分stage的邊界,窄依賴並不會劃分stage。    那麼爲什麼需要stage這個
相關文章
相關標籤/搜索