「決勝雲計算大數據時代」安全
Spark亞太研究院100期公益大講堂 【第12期互動問答分享】網絡
Q1:jobserver 企業使用狀況如何?併發
中國有一家視頻網站已經使用超過JobServer超過半年的時間;大數據
2013年和2014年Spark Summit均大力推薦使用JobServer;網站
Q2:請問,jobserver是適合企業內部仍是供外部客戶使用(可能併發、安全有要求),仍是二者ok?雲計算
目前可見的企業使用案例均是用在企業內部;spa
若是是企業外部能夠做爲雲服務或者大數據資源池使用;視頻
Q3:請問,spark 跑1T數據須要多少內存才能很快跑完server
這首先和程序運行時候在每臺Worker上使用的內存和CPU有關,提交程序的時候能夠手動配置;內存
其次是和帶寬有關係,Shuffle的要儘可能減小數據;
Driver所在的機器的配置也是極爲重要的,通常而言Driver所在的Client的內存和CPU根據實際狀況要儘量的更高的配置,同時,也是相當重要的Driver和Spark集羣要在同一個網絡環境,應爲Driver要不斷的task給Worker上的Executor,同時接受Driver的數據;
Q4:我目前是解決stackoverflow Error 是用checkPoint解決lineage過長的問題 可是這樣會影響效率 怎樣在效率和error之間均衡呢?
:StackOverflow能夠經過配置BlockManager內存管理策略來緩解;
對於checkpoint,要根據實際狀況調整,例如對於Spark Streaming 默認是在內存有兩份數據副本,此時若是處理能力沒法及時消費實時流數據,就會極爲容易產生StackOverflow的狀況,此時就要根據實際狀況調整時間窗口和進行checkpoint;