Java內存映射，上G大文件輕鬆處理

時間 2019-11-07

標籤 java 內存映射文件輕鬆處理欄目 Java 简体版

原文原文鏈接

內存映射文件(Memory-mapped File)，指的是將一段虛擬內存逐字節映射於一個文件，使得應用程序處理文件如同訪問主內存（但在真正使用到這些數據前卻不會消耗物理內存，也不會有讀寫磁盤的操做），這要比直接文件讀寫快幾個數量級。java

稍微解釋一下虛擬內存（很明顯，不是物理內存），它是計算機系統內存管理的一種技術。像施了妖法同樣使得應用程序認爲它擁有連續的可用的內存，實際上呢，它一般是被分隔成多個物理內存的碎片，還有部分暫時存儲在外部磁盤存儲器上，在須要時進行數據交換。git

內存映射文件主要的用處是增長 I/O 性能，特別是針對大文件。對於小文件，內存映射文件反而會致使碎片空間的浪費，由於內存映射老是要對齊頁邊界，最小單位是 4 KiB，一個 5 KiB 的文件將會映射佔用 8 KiB 內存，也就會浪費 3 KiB 內存。程序員

java.nio 包使得內存映射變得很是簡單，其中的核心類叫作 MappedByteBuffer，字面意思爲映射的字節緩衝區。github

0一、使用 MappedByteBuffer 讀取文件

假設如今有一個文件，名叫 cmower.txt，裏面的內容是：算法

沉默王二，一個有趣的程序員bash

PS：哎，改不了王婆賣瓜自賣自詡這個臭毛病了，由於文章被盜得都怕了。app

這個文件放在 /resource 目錄下，咱們能夠經過下面的方法獲取到它：dom

ClassLoader classLoader = Cmower.class.getClassLoader();
Path path = Paths.get(classLoader.getResource("cmower.txt").getPath());
複製代碼

Path 既能夠表示一個目錄，也能夠表示一個文件，就像 File 那樣——固然了，Path 是用來取代 File 的。性能

而後，從文件中獲取一個 channel（通道，對磁盤文件的一種抽象）。測試

FileChannel fileChannel = FileChannel.open(path);
複製代碼

緊接着，調用 FileChannel 類的 map 方法從 channel 中獲取 MappedByteBuffer，此類擴展了 ByteBuffer——提供了一些內存映射文件的基本操做方法。

MappedByteBuffer mappedByteBuffer = fileChannel.map(mode, position, size);
複製代碼

稍微解釋一下 map 方法的三個參數。

1）mode 爲文件映射模式，分爲三種：

MapMode.READ_ONLY（只讀），任何試圖修改緩衝區的操做將致使拋出 ReadOnlyBufferException 異常。
MapMode.READ_WRITE（讀/寫），任何對緩衝區的更改都會在某個時刻寫入文件中。須要注意的是，其餘映射同一個文件的程序可能不能當即看到這些修改，多個程序同時進行文件映射的行爲依賴於操做系統。
MapMode.PRIVATE（私有），對緩衝區的更改不會被寫入到該文件，任何修改對這個緩衝區來講都是私有的。

2）position 爲文件映射時的起始位置。

3）size 爲要映射的區域的大小，必須是非負數，不得大於Integer.MAX_VALUE。

一旦把文件映射到內存緩衝區，咱們就能夠把裏面的數據讀入到 CharBuffer 中並打印出來。具體的代碼示例以下。

CharBuffer charBuffer = null;
ClassLoader classLoader = Cmower.class.getClassLoader();
Path path = Paths.get(classLoader.getResource("cmower.txt").getPath());
try (FileChannel fileChannel = FileChannel.open(path)) {
    MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_ONLY, 0, fileChannel.size());
    
    if (mappedByteBuffer != null) {
        charBuffer = Charset.forName("UTF-8").decode(mappedByteBuffer);
    }
    
    System.out.println(charBuffer.toString());
} catch (IOException e) {
    e.printStackTrace();
}
複製代碼

因爲 decode() 方法的參數是 MappedByteBuffer，這就意味着咱們是從內存中而不是磁盤中讀入的文件內容，因此速度會很是快。

0二、使用 MappedByteBuffer 寫入文件

假設如今要把下面的內容寫入到一個文件，名叫 cmower1.txt。

沉默王二，《Web全棧開發進階之路》做者

這個文件尚未建立，計劃放在項目的 classpath 目錄下。

Path path = Paths.get("cmower1.txt");
複製代碼

具體位置見下圖所示。

而後，建立文件的通道。

FileChannel fileChannel = FileChannel.open(path, StandardOpenOption.READ, StandardOpenOption.WRITE,
                StandardOpenOption.TRUNCATE_EXISTING)
複製代碼

仍然使用的 open 方法，不過增長了 3 個參數，前 2 個很好理解，表示文件可讀（READ）、可寫（WRITE）；第 3 個參數 TRUNCATE_EXISTING 的意思是若是文件已經存在，而且文件已經打開將要進行 WRITE 操做，則其長度被截斷爲 0。

緊接着，仍然調用 FileChannel 類的 map 方法從 channel 中獲取 MappedByteBuffer。

MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_WRITE, 0, 1024);
複製代碼

這一次，咱們把模式調整爲 MapMode.READ_WRITE，而且指定文件大小爲 1024，即 1KB 的大小。而後使用 MappedByteBuffer 中的 put() 方法將 CharBuffer 的內容保存到文件中。具體的代碼示例以下。

CharBuffer charBuffer = CharBuffer.wrap("沉默王二，《Web全棧開發進階之路》做者");

Path path = Paths.get("cmower1.txt");

try (FileChannel fileChannel = FileChannel.open(path, StandardOpenOption.READ, StandardOpenOption.WRITE,
        StandardOpenOption.TRUNCATE_EXISTING)) {
    MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_WRITE, 0, 1024);

    if (mappedByteBuffer != null) {
        mappedByteBuffer.put(Charset.forName("UTF-8").encode(charBuffer));
    }

} catch (IOException e) {
    e.printStackTrace();
}
複製代碼

能夠打開 cmower1.txt 查看一下內容，確認預期的內容有沒有寫入成功。

0三、MappedByteBuffer 的遺憾

聽說，在 Java 中使用 MappedByteBuffer 是一件很是麻煩而且痛苦的事，主要表現有：

1）一次 map 的大小最好限制在 1.5G 左右，重複 map 會增長虛擬內存回收和從新分配的壓力。也就是說，若是文件大小不肯定的話，就不太友好。

2）虛擬內存由操做系統來決定何時刷新到磁盤，這個時間不太容易被程序控制。

3）MappedByteBuffer 的回收方式比較詭異。

再次強調，這三種說法都是聽說，我暫時能力有限，也不能肯定這種說法的準確性，很遺憾。

0四、比較文件操做的處理時間

嗨，朋友，閱讀完以上的內容以後，我想你必定對內存映射文件有了大體的瞭解。但我相信，若是你是一名負責任的程序員，你必定還想知道：內存映射文件的讀取速度究竟有多快。

爲了得出結論，我叫了另外三名競賽的選手：InputStream（普通輸入流）、BufferedInputStream（帶緩衝的輸入流）、RandomAccessFile（隨機訪問文件）。

讀取的對象是加勒比海盜4驚濤怪浪.mkv，大小爲 1.71G。

1）普通輸入流

public static void inputStream(Path filename) {
    try (InputStream is = Files.newInputStream(filename)) {
        int c;
        while((c = is.read()) != -1) {
            
        }
    } catch (IOException e) {
        e.printStackTrace();
    }
}
複製代碼

2）帶緩衝的輸入流

public static void bufferedInputStream(Path filename) {
    try (InputStream is = new BufferedInputStream(Files.newInputStream(filename))) {
        int c;
        while((c = is.read()) != -1) {
            
        }
    } catch (IOException e) {
        e.printStackTrace();
    }
}
複製代碼

3）隨機訪問文件

public static void randomAccessFile(Path filename) {
    try (RandomAccessFile randomAccessFile  = new RandomAccessFile(filename.toFile(), "r")) {
        for (long i = 0; i < randomAccessFile.length(); i++) {
            randomAccessFile.seek(i);
        }
    } catch (IOException e) {
        e.printStackTrace();
    }
}
複製代碼

4）內存映射文件

public static void mappedFile(Path filename) {
    try (FileChannel fileChannel = FileChannel.open(filename)) {
        long size = fileChannel.size();
        MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_ONLY, 0, size);
        for (int i = 0; i < size; i++) {
            mappedByteBuffer.get(i);
        }
    } catch (IOException e) {
        e.printStackTrace();
    }
}
複製代碼

測試程序也很簡單，大體以下：

long start = System.currentTimeMillis();
bufferedInputStream(Paths.get("jialebi.mkv"));
long end = System.currentTimeMillis();
System.out.println(end-start);
複製代碼

四名選手的結果以下表所示。