理解Java中字符流與字節流的區別

時間 2019-11-06

標籤理解 java 字符節流區別欄目 Java 简体版

原文原文鏈接

1. 什麼是流

Java中的流是對字節序列的抽象，咱們能夠想象有一個水管，只不過如今流動在水管中的再也不是水，而是字節序列。和水流同樣，Java中的流也具備一個「流動的方向」，一般能夠從中讀入一個字節序列的對象被稱爲輸入流；可以向其寫入一個字節序列的對象被稱爲輸出流。 java

2. 字節流

Java中的字節流處理的最基本單位爲單個字節，它一般用來處理二進制數據。Java中最基本的兩個字節流類是InputStream和OutputStream，它們分別表明了組基本的輸入字節流和輸出字節流。InputStream類與OutputStream類均爲抽象類，咱們在實際使用中一般使用Java類庫中提供的它們的一系列子類。下面咱們以InputStream類爲例，來介紹下Java中的字節流。數組

InputStream類中定義了一個基本的用於從字節流中讀取字節的方法read，這個方法的定義以下：緩存

public abstract int read() throws IOException;

這是一個抽象方法，也就是說任何派生自InputStream的輸入字節流類都須要實現這一方法，這一方法的功能是從字節流中讀取一個字節，若到了末尾則返回-1，不然返回讀入的字節。關於這個方法咱們須要注意的是，它會一直阻塞知道返回一個讀取到的字節或是-1。另外，字節流在默認狀況下是不支持緩存的，這意味着每調用一次read方法都會請求操做系統來讀取一個字節，這每每會伴隨着一次磁盤IO，所以效率會比較低。有的小夥伴可能認爲InputStream類中read的以字節數組爲參數的重載方法，可以一次讀入多個字節而不用頻繁的進行磁盤IO。那麼到底是不是這樣呢？咱們來看一下這個方法的源碼：編輯器

public int read(byte b[]) throws IOException {    
    return read(b, 0, b.length);
}

它調用了另外一個版本的read重載方法，那咱們就接着往下追：編碼

public int read(byte b[], int off, int len) throws IOException {
        if (b == null) {
            throw new NullPointerException();
        } else if (off < 0 || len < 0 || len > b.length - off) {
            throw new IndexOutOfBoundsException();
        } else if (len == 0) {
            return 0;
        }

        int c = read();
        if (c == -1) {
            return -1;
        }
        b[off] = (byte)c;

        int i = 1;
        try {
            for (; i < len ; i++) {
                c = read();
                if (c == -1) {
                    break;
                }
                b[off + i] = (byte)c;
            }
        } catch (IOException ee) {
        }
        return i;
    }

從以上的代碼咱們能夠看到，實際上read(byte[])方法內部也是經過循環調用read()方法來實現「一次」讀入一個字節數組的，所以本質來講這個方法也未使用內存緩衝區。要使用內存緩衝區以提升讀取的效率，咱們應該使用BufferedInputStream。 spa

3. 字符流

Java中的字符流處理的最基本的單元是Unicode碼元（大小2字節），它一般用來處理文本數據。所謂Unicode碼元，也就是一個Unicode代碼單元，範圍是0x0000~0xFFFF。在以上範圍內的每一個數字都與一個字符相對應，Java中的String類型默認就把字符以Unicode規則編碼然後存儲在內存中。然而與存儲在內存中不一樣，存儲在磁盤上的數據一般有着各類各樣的編碼方式。使用不一樣的編碼方式，相同的字符會有不一樣的二進制表示。實際上字符流是這樣工做的：操作系統

輸出字符流：把要寫入文件的字符序列（其實是Unicode碼元序列）轉爲指定編碼方式下的字節序列，而後再寫入到文件中； code
輸入字符流：把要讀取的字節序列按指定編碼方式解碼爲相應字符序列（其實是Unicode碼元序列從）從而能夠存在內存中。 orm

咱們經過一個demo來加深對這一過程的理解，示例代碼以下：對象

import java.io.FileWriter;
import java.io.IOException;


public class FileWriterDemo {
    public static void main(String[] args) {
        FileWriter fileWriter = null;
        try {
            try {
                fileWriter = new FileWriter("demo.txt");
                fileWriter.write("demo");
            } finally {
                fileWriter.close();
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

以上代碼中，咱們使用FileWriter向demo.txt中寫入了「demo」這四個字符，咱們用十六進制編輯器WinHex查看下demo.txt的內容：