海量小文件的的根源

作者:祝威廉,資深數據架構,11年研發經驗。同時維護和開發多個開源項目。擅長大數據/AI領域的一些思路和工具。現專注於構建集大數據和機器學習於一體的綜合性平臺,降低AI落地成本相關工作上。 小文件的問題其實以前也一直困擾着我,對於傳統數倉,導致小文件多的原因非常多: 分區粒度,如果你分區非常多,就會導致更多的文件數產生 很多流式程序是隻增操作,每個週期都會產生N個文件,常年累月,積石成山。 以前爲
相關文章
相關標籤/搜索