【互動問答分享】第17期決勝雲計算大數據時代Spark亞太研究院公益大講堂

 

「決勝雲計算大數據時代」oop

Spark亞太研究院100期公益大講堂 【第17期互動問答分享】性能

 

Q1:爲了加快spark shuffle 的執行速度是否能夠把spark_local_dirs 指向一塊固態硬盤上面,這樣作是否有效果。大數據

  • 能夠把spark_local_dirs指向一塊固態硬盤上面,這樣會很是有效的提高Spark執行速度;雲計算

  • 同時想更快的提高Spark運行速度的話能夠指定多個Shuffle輸出的目錄,讓Shuffle並行讀寫磁盤; spa

Q2:solidation=true只是在同一機器上進行合併對吧 hadoop

  • solidation=true是在同一臺機器上進行合併;it

  • 當進行合併的時候會把屬於同一個Reducer的bucket放入同一個文件,這回極大的減小Shuffler文件的數量,提高性能; spark

Q3:將來spark與hadoop會共存嗎io

  • Spark和hadoop會共存, Spark+Hadoop= A winning  combination;並行

  • 並存的時候,Hadoop主要使用HDFS進行數據存儲,Spark負責對大數據一體化多元化的計算;

相關文章
相關標籤/搜索