spark處理一個不變的大文件和一個小文件的join

Spark程序可以通過分區來減少網絡通信開銷。分區並非對於所有場景都是有好處的:比如, 如果給定RDD只被掃描一遍,那麼完全沒有必要做分區, 只有當數據多次在諸如連接這種基於鍵的操作時,分區纔會有幫助。 假設我們有一份不變的大文件userData, 以及每5分鐘產生的小數據events, 現要求在每5分鐘產出events數據後, userData對events做一次join操作。 該過程的代碼示例
相關文章
相關標籤/搜索