【互動問答分享】第12期決勝雲計算大數據時代Spark亞太研究院公益大講堂

時間 2019-11-08

標籤互動問答分享決勝計算數據時代 spark 亞太研究院公益講堂欄目 Spark 简体版

原文原文鏈接

「決勝雲計算大數據時代」安全

Spark亞太研究院100期公益大講堂【第12期互動問答分享】網絡

Q1：jobserver 企業使用狀況如何？併發

中國有一家視頻網站已經使用超過JobServer超過半年的時間；大數據
2013年和2014年Spark Summit均大力推薦使用JobServer；網站

Q2：請問，jobserver是適合企業內部仍是供外部客戶使用（可能併發、安全有要求），仍是二者ok?雲計算

目前可見的企業使用案例均是用在企業內部；spa
若是是企業外部能夠做爲雲服務或者大數據資源池使用；視頻

Q3：請問，spark 跑1T數據須要多少內存才能很快跑完server

這首先和程序運行時候在每臺Worker上使用的內存和CPU有關，提交程序的時候能夠手動配置；內存
其次是和帶寬有關係，Shuffle的要儘可能減小數據；
Driver所在的機器的配置也是極爲重要的，通常而言Driver所在的Client的內存和CPU根據實際狀況要儘量的更高的配置，同時，也是相當重要的Driver和Spark集羣要在同一個網絡環境，應爲Driver要不斷的task給Worker上的Executor，同時接受Driver的數據；

Q4：我目前是解決stackoverflow Error 是用checkPoint解決lineage過長的問題可是這樣會影響效率怎樣在效率和error之間均衡呢？

:StackOverflow能夠經過配置BlockManager內存管理策略來緩解；
對於checkpoint，要根據實際狀況調整，例如對於Spark Streaming 默認是在內存有兩份數據副本，此時若是處理能力沒法及時消費實時流數據，就會極爲容易產生StackOverflow的狀況，此時就要根據實際狀況調整時間窗口和進行checkpoint；

相關文章

相關標籤/搜索

大數據----Spark

大數據時代

互動問答分享

雲計算與大數據

決戰大數據

Spark亞太研究院系列叢書

Docker命令大全

PHP 7 新特性

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<