大量csv數據的查詢和計算的技術實現路徑分析(2)-HDFS存儲查詢探討2

上一篇講了java split的使用弊端,雖是字符串處理中一個很小的操作,不過卻避不開。接下來,主要探討HDFS存儲查詢方面的問題和解決思路。 隨着每天的業務運作,每天會生成很多csv文件,目前csv文件存儲在hdfs文件系統裏面。在使用csv文件數據時,遇到一個問題: 如何高效查詢HDFS中的csv數據? 基於HDFS文件系統的特性,筆者經由以前的探討和一些資料,作了一些思考,如圖: 首先,這是
相關文章
相關標籤/搜索