第20課:Spark Streaming中動態Batch Size實現初探

本期內容:數據庫

1,Batch Duration與Process Time安全

2,動態Batch Size架構

 

Batch Duration和Process Time並非線性相關的,當數據量增大時,僅僅增大Batch Duration是不可以解決問題的,還跟RDD涉及的算子有關。分佈式

傳統的數據處理應用中,採用J2EE和數據庫的架構模式,可是當一秒內接收到的數據單臺機器沒法容納或者沒法處理時,就須要採用分佈式流系統來處理接收到的數據。io

採用分佈式流處理系統時,還會遇到數據量突發增大,此時須要考慮峯值。論文《dynamic_batching》提到動態Batch Size的思想,儘可能把Batch變小,處理就會越快,也就越安全。架構模式

引入控制模塊,從Process Time的信息來改變Batch Interval。im

相關文章
相關標籤/搜索