hive的差集運算該如何實現

集合A和B,求解A-B數據庫

採用A LEFT OUTER JOIN B優化

示例以下內存

    A                                         B數據

    1  a                                     1               11集合

    2   b                                   3               33join

 A  LEFT OUTER JOIN B ->C

        C

        1    a     1        11

        2   b    null   null

另外補充:數據庫優化

 

若表D100條記錄,表E10條記錄

兩個表作鏈接,  記錄少的 join 記錄條數多的

由於表B 要放入內存。要求記錄數少一些。

相關文章
相關標籤/搜索