地鐵譯：Spark for python developers ---Spark流式數據處理

時間 2021-01-09

原文原文鏈接

先研究一下不斷改變的動態環境帶來的挑戰，在列出流處理應用的先決條件（如，Twitter的TCP Sockets連接）之後，結合Spark, Kafka 和 Flume 把數據放入一個低延遲，高吞吐量，可縮放的處理流水線。  要點如下:  • 分析流式應用架構的挑戰，約束和需求   • 利用Spark Streaming 從 TCP socket 中處理實時數據   • 連接 Twitter 服務

>>阅读原文<<