spark 笛卡爾積優化

因業務需求,需對兩份數據進行關聯,而後進行計算,而後想到笛卡爾積。在最開始用spark對他進行處理的時候,他老是卡死在一個地方跑不出數據。需對其進行優化。web 1. 任務代碼sql data1 = hc.sql(" select a.*,b.* from tableA a ,tableB b").rdd.map(list) 2. 優化方式1 對數據進行分區rdd.repartition(50)
相關文章
相關標籤/搜索