hadoop中使用lzo的壓縮及安裝

在hadoop中使用lzo的壓縮算法可以減小數據的大小和數據的磁盤讀寫時間,不僅如此,lzo是基於block分塊的,這樣他就允許數據被分解成chunk,並行的被hadoop處理。這樣的特點,就可以讓lzo在hadoop上成爲一種非常好用的壓縮格式。 lzo本身不是splitable的,所以當數據爲text格式時,用lzo壓縮出來的數據當做job的輸入是一個文件作爲一個map。但是sequencef
相關文章
相關標籤/搜索