離線Spark 任務調優之路一

入職新公司一段時間,接手了前輩開發的spark 引擎,最痛苦的任務開始了,看別人的代碼,優化別人的代碼,淦!只能一步一步來吧,先調整最棘手的問題。 解決數據量承載問題 由於之前業務剛開始,數據量較少,但是如今用戶增長,數據量增加,一些配置不再適合現今的業務。第一個問題就是,數據入庫問題,我們採用的是 spark 讀取每日的增量日誌(每個業務在70g左右,需要跑7、8個,由於公司太窮了,集羣只有 4
相關文章
相關標籤/搜索