地鐵譯:Spark for python developers ---Spark流式數據處理

先研究一下不斷改變的動態環境帶來的挑戰,在列出流處理應用的先決條件(如,Twitter的TCP Sockets連接)之後, 結合Spark, Kafka 和 Flume 把數據放入一個低延遲,高吞吐量,可縮放的處理流水線。
 要點如下: 
• 分析流式應用架構的挑戰,約束和需求
 
• 利用Spark Streaming 從 TCP socket 中處理實時數據 

• 連接 Twitter 服務
相關文章
相關標籤/搜索