Spark的RDD連續轉換操做有時須要注意強行觸發action執行操做,不然(Tansformation)的惰性(lazy)機制會致使結果錯誤

  最近經過spark作一些數據處理,遇到一些詭異的現象java 我開發了一個隨機生成海量數據點的程序,由於要保證這些點具備自增序號,不適合直接map分佈式作(幾十億的數據,map計算須要分區(不主動分區估計也會自動分區,spark自帶的數據累加邏輯只能對單個partition分區內有效),須要在driver裏進行序號計算,因此就想經過數組分批生成數據,轉換成RDD,在依次拼接(union)起來,
相關文章
相關標籤/搜索