基於hive的大數據量的優化處理實例

時間 2020-01-15

標籤基於 hive 數據優化處理實例欄目 Hadoop 简体版

原文原文鏈接

最近在作一個項目時遇到一個問題，是關於大數據量的數據，具體爲一個800億的輕度彙總數據，去關聯一個7億左右的另外一個輕度彙總數據。web 主要遇到的問題有：數組 1，800億的輕度彙總數據讀寫困難，耗費時間、資源大；svg 2，兩表進行關聯處理數據計算慢。性能背景：（徹底假設來講）大數據 A表是以用戶、城市維度的出現次數數據，字段主要有uid、city_id，cntui B表是以用戶、城市維度的

>>阅读原文<<