「決勝雲計算大數據時代」oop
Spark亞太研究院100期公益大講堂 【第17期互動問答分享】性能
Q1:爲了加快spark shuffle 的執行速度是否能夠把spark_local_dirs 指向一塊固態硬盤上面,這樣作是否有效果。大數據
能夠把spark_local_dirs指向一塊固態硬盤上面,這樣會很是有效的提高Spark執行速度;雲計算
同時想更快的提高Spark運行速度的話能夠指定多個Shuffle輸出的目錄,讓Shuffle並行讀寫磁盤; spa
Q2:solidation=true只是在同一機器上進行合併對吧 hadoop
solidation=true是在同一臺機器上進行合併;it
當進行合併的時候會把屬於同一個Reducer的bucket放入同一個文件,這回極大的減小Shuffler文件的數量,提高性能; spark
Q3:將來spark與hadoop會共存嗎io
Spark和hadoop會共存, Spark+Hadoop= A winning combination;並行
並存的時候,Hadoop主要使用HDFS進行數據存儲,Spark負責對大數據一體化多元化的計算;