Spark BroadCast 解析

  前言 在實際使用中對於一些許多rdd須要用到的大的只讀數據集變量可使用共享變量的方式來提升性能,例如查內存表,默認狀況下會每一個task都保存一份,這樣太浪費資源,因此通常會採用共享變量的方式來查表,代碼中常用,但還沒細緻研究過,此次恰好藉着閱讀Spark RDD API源碼的機會來深刻解析一下broadcast。算法 Broadcast代碼還涉及到spark底層存儲代碼BlockManage
相關文章
相關標籤/搜索