自定義 hadoop MapReduce InputFormat 切分輸入文件

時間 2021-01-16

原文原文鏈接

在上一篇中，我們實現了按 cookieId 和 time 進行二次排序，現在又有新問題：假如我需要按 cookieId 和 cookieId&time 的組合進行分析呢？此時最好的辦法是自定義 InputFormat，讓 mapreduce 一次讀取一個 cookieId 下的所有記錄，然後再按 time 進行切分 session，邏輯僞碼如下： for OneSplit in MyInputFo

>>阅读原文<<