Hbase Hive 數據庫練習流程

1、對原始數據進行預處理,格式爲上面給出的預處理之後的示例數據。 通過觀察原始數據形式,可以發現,每個字段之間使用「:」分割,視頻可以有多個視頻類別,類別之間&符號分割,且分割的兩邊有空格字符,同時相關視頻也是可以有多個,多個相關視頻也是用「:」進行分割。爲了分析數據時方便,我們首先進行數據重組清洗操作。 即:將每條數據的類別用「&」分割,同時去掉兩邊空格,多個「相關視頻id」使用「,」進行分割
相關文章
相關標籤/搜索