本期內容:數據庫
1,Batch Duration與Process Time安全
2,動態Batch Size架構
Batch Duration和Process Time並非線性相關的,當數據量增大時,僅僅增大Batch Duration是不可以解決問題的,還跟RDD涉及的算子有關。分佈式
傳統的數據處理應用中,採用J2EE和數據庫的架構模式,可是當一秒內接收到的數據單臺機器沒法容納或者沒法處理時,就須要採用分佈式流系統來處理接收到的數據。io
採用分佈式流處理系統時,還會遇到數據量突發增大,此時須要考慮峯值。論文《dynamic_batching》提到動態Batch Size的思想,儘可能把Batch變小,處理就會越快,也就越安全。架構模式
引入控制模塊,從Process Time的信息來改變Batch Interval。im