自定義 hadoop MapReduce InputFormat 切分輸入文件

在上一篇中,我們實現了按 cookieId 和 time 進行二次排序,現在又有新問題:假如我需要按 cookieId 和 cookieId&time 的組合進行分析呢?此時最好的辦法是自定義 InputFormat,讓 mapreduce 一次讀取一個 cookieId 下的所有記錄,然後再按 time 進行切分 session,邏輯僞碼如下: for OneSplit in MyInputFo
相關文章
相關標籤/搜索