Hive優化(5)之選擇合適的map數

       Hive是基於Hadoop分佈式框架下的數據倉庫解決方案,能夠方便地對數據進行清洗、轉化和加載。Hive處理海量數據是數據倉庫的基本需求,而如何經過hive充分利用Hadoop集羣的分佈式並行功能就相當重要。若是不能充分利用分佈式並行處理,那麼處理大數據量就會變得低效。而一張數據表須要多少個map來處理和一個map處理多少數據記錄,都會影響到海量數據處理的效率。
相關文章
相關標籤/搜索