記錄兩次sparkjob優化,性能提升幾十倍不止

目前在做兩個項目,一個搜索平臺化一個排序服務化,在項目開發中兩者都用到了spark開發數據處理,遇到問題多多,但解決後性能提升幾十倍不止,下面記錄下兩次優化。 一、在特徵處理中,需要讀取hive的數據進行業務邏輯處理寫入到kv系統中,爲了減少shuffle,每次處理直接用mapPartitons以及foreachPartitons進行處理,整體都速度不錯,但是就是有那麼幾個特徵hive表處理就是非
相關文章
相關標籤/搜索