spark輸出自己想要的文件名稱

在hadoop中輸出文件名稱的生產是由OutputFormat裏面的generateFileNameForKeyValue方法生產的。知道這個之後,我們就可以寫一個仔細需要的方法去繼承父類重寫文件生成的規則了;源碼中是獲取reduce的編碼號生成part*的帶有數字的文件名稱;這裏定製了一個用key作爲輸出文件名稱,用這個是千萬不能key是幾千萬上億的不重複字符;這個只適合數量小,key也不多情況
相關文章
相關標籤/搜索