hive項目之微博ETL項目總結分析

微博ETL項目分析 一、數據格式 文件格式 Txt Csv’ Xls Doc 數據結構格式 Html格式,既是一個文件格式,也是一個數據結構格式 Json格式:kv對 Xml格式:一個根標籤,和一堆子標籤 二、輸入和輸出 輸入: 房地產評論主題下的對應的用戶基本信息文件集和評論內容文件集,兩者之間是通過用戶id關聯的。 通過一定的java程序設計做數據解析、結構化、各自合併成一個文件即可方便loa
相關文章
相關標籤/搜索