spark的一點總結

1.要知道1個線程也是能夠運行多個task的!只不過若是同時運行多個task就會出現運行一下子這個,運行一下子那個,這樣輪流運行的狀況! 2.讀取本地文件和hdfs文件的分區數(partition數)是不同的! 3.能夠用sparkconf在setMaster以後設置並行度,也就是線程數,同時也能夠設置分區數(也就是partition數量),因此會出現一個線程運行多個partition的狀況,  
相關文章
相關標籤/搜索