記錄兩次sparkjob優化，性能提升幾十倍不止

時間 2020-12-31

原文原文鏈接

目前在做兩個項目，一個搜索平臺化一個排序服務化，在項目開發中兩者都用到了spark開發數據處理，遇到問題多多，但解決後性能提升幾十倍不止，下面記錄下兩次優化。一、在特徵處理中，需要讀取hive的數據進行業務邏輯處理寫入到kv系統中，爲了減少shuffle，每次處理直接用mapPartitons以及foreachPartitons進行處理，整體都速度不錯，但是就是有那麼幾個特徵hive表處理就是非