Flume對文件夾進行監控,實時收集新增文件到HDFS

- 背景 由於項目要求,需要實時將指定文件夾中新增的文件上傳到HDFS中,本文中使用flume採集數據並保存到HDFS中,一方面可以減輕本地的存儲壓力,另一方面數據集中保存到HDFS也爲後續數據分析工作打下基礎。 - 實現流程 flume中的source組件選用spooling directory類型,此類型能對文件目錄進行監控並實時收集目錄中新增的文件。本文中採用此種類型對本地存儲相關數據的目錄
相關文章
相關標籤/搜索