MapReduce原理及shuffle機制

時間 2021-01-08

標籤 hadoop 欄目 Hadoop 简体版

原文原文鏈接

一、環形緩衝區 1.數據在環形緩衝區以KV的形式存在，索引和數據同向增長，當增長到緩衝區大小（默認128M）的80%時（只是80%左右，不是必須80%）開始溢寫 2.索引佔用四個int長度，以一個四元組的形式存在：value的起始位置，key的起始位置，partition值，value的長度。每進一條數據，指針每次向下跳動4個格子，然後補齊上面的值 3.發生在環形緩衝區的排序是對索引的排序，再具體

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。