Hive優化（5）之選擇合適的map數

時間 2019-12-04

標籤 hive 優化選擇合適 map 欄目 Hadoop 简体版

原文原文鏈接

Hive是基於Hadoop分佈式框架下的數據倉庫解決方案，能夠方便地對數據進行清洗、轉化和加載。Hive處理海量數據是數據倉庫的基本需求，而如何經過hive充分利用Hadoop集羣的分佈式並行功能就相當重要。若是不能充分利用分佈式並行處理，那麼處理大數據量就會變得低效。而一張數據表須要多少個map來處理和一個map處理多少數據記錄，都會影響到海量數據處理的效率。

>>阅读原文<<