內存映射文件(Memory-mapped File),指的是將一段虛擬內存逐字節映射於一個文件,使得應用程序處理文件如同訪問主內存(但在真正使用到這些數據前卻不會消耗物理內存,也不會有讀寫磁盤的操做),這要比直接文件讀寫快幾個數量級。java
稍微解釋一下虛擬內存(很明顯,不是物理內存),它是計算機系統內存管理的一種技術。像施了妖法同樣使得應用程序認爲它擁有連續的可用的內存,實際上呢,它一般是被分隔成多個物理內存的碎片,還有部分暫時存儲在外部磁盤存儲器上,在須要時進行數據交換。git
內存映射文件主要的用處是增長 I/O 性能,特別是針對大文件。對於小文件,內存映射文件反而會致使碎片空間的浪費,由於內存映射老是要對齊頁邊界,最小單位是 4 KiB,一個 5 KiB 的文件將會映射佔用 8 KiB 內存,也就會浪費 3 KiB 內存。程序員
java.nio 包使得內存映射變得很是簡單,其中的核心類叫作 MappedByteBuffer,字面意思爲映射的字節緩衝區。github
假設如今有一個文件,名叫 cmower.txt,裏面的內容是:算法
沉默王二,一個有趣的程序員bash
PS:哎,改不了王婆賣瓜自賣自詡這個臭毛病了,由於文章被盜得都怕了。app
這個文件放在 /resource
目錄下,咱們能夠經過下面的方法獲取到它:dom
ClassLoader classLoader = Cmower.class.getClassLoader();
Path path = Paths.get(classLoader.getResource("cmower.txt").getPath());
複製代碼
Path 既能夠表示一個目錄,也能夠表示一個文件,就像 File 那樣——固然了,Path 是用來取代 File 的。性能
而後,從文件中獲取一個 channel(通道,對磁盤文件的一種抽象)。測試
FileChannel fileChannel = FileChannel.open(path);
複製代碼
緊接着,調用 FileChannel 類的 map 方法從 channel 中獲取 MappedByteBuffer,此類擴展了 ByteBuffer
——提供了一些內存映射文件的基本操做方法。
MappedByteBuffer mappedByteBuffer = fileChannel.map(mode, position, size);
複製代碼
稍微解釋一下 map 方法的三個參數。
1)mode 爲文件映射模式,分爲三種:
MapMode.READ_ONLY(只讀),任何試圖修改緩衝區的操做將致使拋出 ReadOnlyBufferException 異常。
MapMode.READ_WRITE(讀/寫),任何對緩衝區的更改都會在某個時刻寫入文件中。須要注意的是,其餘映射同一個文件的程序可能不能當即看到這些修改,多個程序同時進行文件映射的行爲依賴於操做系統。
MapMode.PRIVATE(私有), 對緩衝區的更改不會被寫入到該文件,任何修改對這個緩衝區來講都是私有的。
2)position 爲文件映射時的起始位置。
3)size
爲要映射的區域的大小,必須是非負數,不得大於Integer.MAX_VALUE
。
一旦把文件映射到內存緩衝區,咱們就能夠把裏面的數據讀入到 CharBuffer 中並打印出來。具體的代碼示例以下。
CharBuffer charBuffer = null;
ClassLoader classLoader = Cmower.class.getClassLoader();
Path path = Paths.get(classLoader.getResource("cmower.txt").getPath());
try (FileChannel fileChannel = FileChannel.open(path)) {
MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_ONLY, 0, fileChannel.size());
if (mappedByteBuffer != null) {
charBuffer = Charset.forName("UTF-8").decode(mappedByteBuffer);
}
System.out.println(charBuffer.toString());
} catch (IOException e) {
e.printStackTrace();
}
複製代碼
因爲 decode()
方法的參數是 MappedByteBuffer,這就意味着咱們是從內存中而不是磁盤中讀入的文件內容,因此速度會很是快。
假設如今要把下面的內容寫入到一個文件,名叫 cmower1.txt。
沉默王二,《Web全棧開發進階之路》做者
這個文件尚未建立,計劃放在項目的 classpath 目錄下。
Path path = Paths.get("cmower1.txt");
複製代碼
具體位置見下圖所示。
而後,建立文件的通道。
FileChannel fileChannel = FileChannel.open(path, StandardOpenOption.READ, StandardOpenOption.WRITE,
StandardOpenOption.TRUNCATE_EXISTING)
複製代碼
仍然使用的 open 方法,不過增長了 3 個參數,前 2 個很好理解,表示文件可讀(READ)、可寫(WRITE);第 3 個參數 TRUNCATE_EXISTING 的意思是若是文件已經存在,而且文件已經打開將要進行 WRITE 操做,則其長度被截斷爲 0。
緊接着,仍然調用 FileChannel 類的 map 方法從 channel 中獲取 MappedByteBuffer。
MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_WRITE, 0, 1024);
複製代碼
這一次,咱們把模式調整爲 MapMode.READ_WRITE,而且指定文件大小爲 1024,即 1KB 的大小。而後使用 MappedByteBuffer 中的 put() 方法將 CharBuffer 的內容保存到文件中。具體的代碼示例以下。
CharBuffer charBuffer = CharBuffer.wrap("沉默王二,《Web全棧開發進階之路》做者");
Path path = Paths.get("cmower1.txt");
try (FileChannel fileChannel = FileChannel.open(path, StandardOpenOption.READ, StandardOpenOption.WRITE,
StandardOpenOption.TRUNCATE_EXISTING)) {
MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_WRITE, 0, 1024);
if (mappedByteBuffer != null) {
mappedByteBuffer.put(Charset.forName("UTF-8").encode(charBuffer));
}
} catch (IOException e) {
e.printStackTrace();
}
複製代碼
能夠打開 cmower1.txt 查看一下內容,確認預期的內容有沒有寫入成功。
聽說,在 Java 中使用 MappedByteBuffer 是一件很是麻煩而且痛苦的事,主要表現有:
1)一次 map 的大小最好限制在 1.5G 左右,重複 map 會增長虛擬內存回收和從新分配的壓力。也就是說,若是文件大小不肯定的話,就不太友好。
2)虛擬內存由操做系統來決定何時刷新到磁盤,這個時間不太容易被程序控制。
3)MappedByteBuffer 的回收方式比較詭異。
再次強調,這三種說法都是聽說,我暫時能力有限,也不能肯定這種說法的準確性,很遺憾。
嗨,朋友,閱讀完以上的內容以後,我想你必定對內存映射文件有了大體的瞭解。但我相信,若是你是一名負責任的程序員,你必定還想知道:內存映射文件的讀取速度究竟有多快。
爲了得出結論,我叫了另外三名競賽的選手:InputStream(普通輸入流)、BufferedInputStream(帶緩衝的輸入流)、RandomAccessFile(隨機訪問文件)。
讀取的對象是加勒比海盜4驚濤怪浪.mkv,大小爲 1.71G。
1)普通輸入流
public static void inputStream(Path filename) {
try (InputStream is = Files.newInputStream(filename)) {
int c;
while((c = is.read()) != -1) {
}
} catch (IOException e) {
e.printStackTrace();
}
}
複製代碼
2)帶緩衝的輸入流
public static void bufferedInputStream(Path filename) {
try (InputStream is = new BufferedInputStream(Files.newInputStream(filename))) {
int c;
while((c = is.read()) != -1) {
}
} catch (IOException e) {
e.printStackTrace();
}
}
複製代碼
3)隨機訪問文件
public static void randomAccessFile(Path filename) {
try (RandomAccessFile randomAccessFile = new RandomAccessFile(filename.toFile(), "r")) {
for (long i = 0; i < randomAccessFile.length(); i++) {
randomAccessFile.seek(i);
}
} catch (IOException e) {
e.printStackTrace();
}
}
複製代碼
4)內存映射文件
public static void mappedFile(Path filename) {
try (FileChannel fileChannel = FileChannel.open(filename)) {
long size = fileChannel.size();
MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_ONLY, 0, size);
for (int i = 0; i < size; i++) {
mappedByteBuffer.get(i);
}
} catch (IOException e) {
e.printStackTrace();
}
}
複製代碼
測試程序也很簡單,大體以下:
long start = System.currentTimeMillis();
bufferedInputStream(Paths.get("jialebi.mkv"));
long end = System.currentTimeMillis();
System.out.println(end-start);
複製代碼
四名選手的結果以下表所示。
方法 | 時間 |
---|---|
普通輸入流 | 龜速,沒有耐心等出結果 |
隨機訪問文件 | 龜速,沒有耐心等下去 |
帶緩衝的輸入流 | 29966 |
內存映射文件 | 914 |
普通輸入流和隨機訪問文件都慢得要命,真的是龜速,我沒有耐心等待出結果;帶緩衝的輸入流的表現還不錯,但相比內存映射文件就遜色多了。由此得出的結論就是:內存映射文件,上G大文件輕鬆處理。
本篇文章主要介紹了 Java 的內存映射文件,MappedByteBuffer 是其靈魂,讀取速度快如火箭。另外,全部這些示例和代碼片斷均可以在 GitHub 上找到——這是一個 Maven 項目,因此它很容易導入和運行。
歡迎關注「沉默王二」公衆號,後臺回覆關鍵字「Java」獲取 Java 經常使用算法手冊——成爲高手的必備手冊。