Apache Arrow:一個跨平臺的內存數據交換格式

Apache Arrow是Apache基金會下一個全新的開源項目,同時也是頂級項目。它的目的是作爲一個跨平臺的數據層來加快大數據分析項目的運行速度。 用戶在應用大數據分析時除了將Hadoop等大數據平臺作爲一個經濟的存儲和批處理平臺之外也很看重分析系統的擴展性和性能。過去幾年開源社區已經發布了很多工具來完善大數據分析的生態系統,這些工具涵蓋了數據分析的各個層面,比如列式存儲格式(Parquet/O
相關文章
相關標籤/搜索