速速收藏!使用Apache Spark實現ETL 300%的速度提升

當技術團隊開始將現有系統和EDH(企業數據中心)集羣拼接在一起時,通常會採用以下常見的設計模式:將文件轉儲(通常爲CSV格式)定期上傳到EDH中,接着進行解壓縮,轉換爲最佳查詢格式,然後隱藏在HDFS中,在這裏各種EDH組件都可以使用它們。 當這些文件轉儲很大或很經常出現時,這些簡單的步驟可能會顯著減慢數據擷取管道的速度。這種延遲的一部分是不可避免的;由於物理限制因素,跨網絡移動大文件是非常耗時的
相關文章
相關標籤/搜索