Hadoop大數據入門——HDFS和MapReduce基礎使用

1、分析處理數據集 數據集描述:python 2011年某天某搜索引擎的搜索狀況app 數據集一共6列,分別爲時間、UID、搜索關鍵詞、選擇第幾個入口、搜索次數、URL。oop 初級階段個人研究目標是對搜索關鍵詞(keyword)進行詞頻統計。搜索引擎 那麼首先我須要對數據集進行預處理,這裏我使用python編寫處理程序,僅提取出關鍵字一列的內容造成新文件,爲下一步存入Hadoop的HDFS中作準
相關文章
相關標籤/搜索