hive實現50w詞頻統計與ctrip數據集銷售額計算

用hive對50萬條記錄(數據文件demo50w.utf8)進行詞頻統計,數據清洗轉換自行處理,並列出詞頻最高的20個詞。 首先準備好要統計單詞的文件,並上傳到hdfs上,登錄hive,先創建一個表,這個表中只有一列數據,類型爲string,用來存放統計單詞的文件,把文件內容作爲一個字符串存儲。然後創建存放單詞及計數結果的表,這個表的內容來自select嵌套查詢。使用正則表達式進行匹配,從文件中篩
相關文章
相關標籤/搜索