大量csv數據的查詢和計算的技術實現路徑分析(2)-HDFS存儲查詢探討2

上一篇講了java split的使用弊端,雖是字符串處理中一個很小的操做,不過卻避不開。接下來,主要探討HDFS存儲查詢方面的問題和解決思路。 隨着天天的業務運做,天天會生成不少csv文件,目前csv文件存儲在hdfs文件系統裏面。在使用csv文件數據時,遇到一個問題: 如何高效查詢HDFS中的csv數據?java 基於HDFS文件系統的特性,筆者經由之前的探討和一些資料,做了一些思考,如圖: n
相關文章
相關標籤/搜索