數據算法 --hadoop/spark數據處理技巧 --（17.小文件問題 18.MapReuce的大容量緩存）...

時間 2021-01-13

原文原文鏈接

十七。小文件問題　　　　　　　　　　　　　　　　　　　　十八。MR的大容量緩存　　在MR中使用和讀取大容量緩存，（也就是說，可能包括數十億鍵值對，而無法放在一個商用服務器的內存中）。本次提出的算法通用，可以在任何MR範式中使用。（eg:MR，Spark）