spark 笛卡爾積優化

時間 2019-12-04

原文原文鏈接

因業務需求，需對兩份數據進行關聯，而後進行計算，而後想到笛卡爾積。在最開始用spark對他進行處理的時候，他老是卡死在一個地方跑不出數據。需對其進行優化。web 1. 任務代碼sql data1 = hc.sql(" select a.*,b.* from tableA a ,tableB b").rdd.map(list) 2. 優化方式1 對數據進行分區rdd.repartition(50)

>>阅读原文<<