企業自有數據格式雜亂,MapReduce如何搞定?

本文作爲《Hadoop從入門到精通》大型專題第三章的最後一篇文章,主要介紹了SequenceFile和Avro之外的其它數據格式,以及與MapReduce的兼容性,並介紹了企業常用的自定義數據格式或CSV格式如何作爲MapReduce作業輸入等內容。 3.4 柱狀存儲 當數據寫入I/O設備(比如文件或關係數據庫中的表)時,佈局該數據的常見方式是基於行,這意味着第一行的所有字段將首先被寫入,緊接着是
相關文章
相關標籤/搜索