【互動問答分享】第12期決勝雲計算大數據時代Spark亞太研究院公益大講堂

 

「決勝雲計算大數據時代」安全

Spark亞太研究院100期公益大講堂 【第12期互動問答分享】網絡

 

Q1:jobserver 企業使用狀況如何?併發

  • 中國有一家視頻網站已經使用超過JobServer超過半年的時間;大數據

  • 2013年和2014年Spark Summit均大力推薦使用JobServer;網站

     

Q2:請問,jobserver是適合企業內部仍是供外部客戶使用(可能併發、安全有要求),仍是二者ok?雲計算

  • 目前可見的企業使用案例均是用在企業內部;spa

  • 若是是企業外部能夠做爲雲服務或者大數據資源池使用;視頻

 

Q3:請問,spark 跑1T數據須要多少內存才能很快跑完server

  • 這首先和程序運行時候在每臺Worker上使用的內存和CPU有關,提交程序的時候能夠手動配置;內存

  • 其次是和帶寬有關係,Shuffle的要儘可能減小數據;

  • Driver所在的機器的配置也是極爲重要的,通常而言Driver所在的Client的內存和CPU根據實際狀況要儘量的更高的配置,同時,也是相當重要的Driver和Spark集羣要在同一個網絡環境,應爲Driver要不斷的task給Worker上的Executor,同時接受Driver的數據;

 

Q4:我目前是解決stackoverflow Error 是用checkPoint解決lineage過長的問題 可是這樣會影響效率 怎樣在效率和error之間均衡呢?

  • :StackOverflow能夠經過配置BlockManager內存管理策略來緩解;

  • 對於checkpoint,要根據實際狀況調整,例如對於Spark Streaming 默認是在內存有兩份數據副本,此時若是處理能力沒法及時消費實時流數據,就會極爲容易產生StackOverflow的狀況,此時就要根據實際狀況調整時間窗口和進行checkpoint;

相關文章
相關標籤/搜索