MapReduce編程之Reduce Join多種應用場景與使用

時間 2021-01-20

原文原文鏈接

在關係型數據庫中 Join 是非常常見的操作，各種優化手段已經到了極致。在海量數據的環境下，不可避免的也會碰到這種類型的需求，例如在數據分析時需要連接從不同的數據源中獲取到數據。不同於傳統的單機模式，在分佈式存儲下采用 MapReduce 編程模型，也有相應的處理措施和優化方法。我們先簡要地描述待解決的問題。假設有兩個數據集：氣象站數據庫和天氣記錄數據庫，並考慮如何合二爲一。一個典型的查詢是：

>>阅读原文<<