最近在看《Hadoop:The Definitive Guide》,對其分佈式文件系統HDFS的Streaming data access不能理解。基於流的數據讀寫,太抽象了,什麼叫基於流,什麼是流?Hadoop是Java語言寫的,因此想理解好Hadoop的Streaming Data Access,還得從Java流機制入手。流機制也是JAVA及C++中的一個重要的機制,經過流使咱們可以自由地操做包括文件,內存,IO設備等等中的數據。 java
流是個抽象的概念,是對輸入輸出設備的抽象,Java程序中,對於數據的輸入/輸出操做都是以「流」的方式進行。設備能夠是文件,網絡,內存等。 網絡
流具備方向性,至因而輸入流仍是輸出流則是一個相對的概念,通常以程序爲參考,若是數據的流向是程序至設備,咱們成爲輸出流,反之咱們稱爲輸入流。 分佈式
能夠將流想象成一個「水流管道」,水流就在這管道中造成了,天然就出現了方向的概念。 ide
當程序須要從某個數據源讀入數據的時候,就會開啓一個輸入流,數據源能夠是文件、內存或網絡等等。相反地,須要寫出數據到某個數據源目的地的時候,也會開啓一個輸出流,這個數據源目的地也能夠是文件、內存或網絡等等。 oop
能夠從不一樣的角度對流進行分類: ui
1. 處理的數據單位不一樣,可分爲:字符流,字節流 spa
2.數據流方向不一樣,可分爲:輸入流,輸出流 .net
3.功能不一樣,可分爲:節點流,處理流 code
1. 和 2. 都比較好理解,對於根據功能分類的,能夠這麼理解: 對象
節點流:節點流從一個特定的數據源讀寫數據。即節點流是直接操做文件,網絡等的流,例如FileInputStream和FileOutputStream,他們直接從文件中讀取或往文件中寫入字節流。
處理流:「鏈接」在已存在的流(節點流或處理流)之上經過對數據的處理爲程序提供更爲強大的讀寫功能。過濾流是使用一個已經存在的輸入流或輸出流鏈接建立的,過濾流就是對節點流進行一系列的包裝。例如BufferedInputStream和BufferedOutputStream,使用已經存在的節點流來構造,提供帶緩衝的讀寫,提升了讀寫的效率,以及DataInputStream和DataOutputStream,使用已經存在的節點流來構造,提供了讀寫Java中的基本數據類型的功能。他們都屬於過濾流。
舉個簡單的例子:
public static void main(String[] args) throws IOException { // 節點流FileOutputStream直接以A.txt做爲數據源操做 FileOutputStream fileOutputStream = new FileOutputStream("A.txt"); // 過濾流BufferedOutputStream進一步裝飾節點流,提供緩衝寫 BufferedOutputStream bufferedOutputStream = new BufferedOutputStream( fileOutputStream); // 過濾流DataOutputStream進一步裝飾過濾流,使其提供基本數據類型的寫 DataOutputStream out = new DataOutputStream(bufferedOutputStream); out.writeInt(3); out.writeBoolean(true); out.flush(); out.close(); // 此處輸入節點流,過濾流正好跟上邊輸出對應,讀者可觸類旁通 DataInputStream in = new DataInputStream(new BufferedInputStream( new FileInputStream("A.txt"))); System.out.println(in.readInt()); System.out.println(in.readBoolean()); in.close(); }
Java全部的流類位於java.io包中,都分別繼承字如下四種抽象流類型。
字節流 | 字符流 | |
輸入流 | InputStream | Reader |
輸出流 | OutputStream | Writer |
1.繼承自InputStream/OutputStream的流都是用於向程序中輸入/輸出數據,且數據的單位都是字節(byte=8bit),如圖,深色的爲節點流,淺色的爲處理流。
2.繼承自Reader/Writer的流都是用於向程序中輸入/輸出數據,且數據的單位都是字符(2byte=16bit),如圖,深色的爲節點流,淺色的爲處理流。
節點流類型常見的有:
對文件操做的字符流有FileReader/FileWriter,字節流有FileInputStream/FileOutputStream。
處理流類型常見的有:
緩衝流:緩衝流要「套接」在相應的節點流之上,對讀寫的數據提供了緩衝的功能,提升了讀寫效率,同事增長了一些新的方法。
字節緩衝流有BufferedInputStream/BufferedOutputStream,字符緩衝流有BufferedReader/BufferedWriter,字符緩衝流分別提供了讀取和寫入一行的方法ReadLine和NewLine方法。
對於輸出地緩衝流,寫出的數據,會先寫入到內存中,再使用flush方法將內存中的數據刷到硬盤。因此,在使用字符緩衝流的時候,必定要先flush,而後再close,避免數據丟失。
轉換流:用於字節數據到字符數據之間的轉換。
僅有字符流InputStreamReader/OutputStreamWriter。其中,InputStreamReader須要與InputStream「套接」,OutputStreamWriter須要與OutputStream「套接」。
數據流:提供了讀寫Java中的基本數據類型的功能。
DataInputStream和DataOutputStream分別繼承自InputStream和OutputStream,須要「套接」在InputStream和OutputStream類型的節點流之上。
對象流:用於直接將對象寫入寫出。
流類有ObjectInputStream和ObjectOutputStream,自己這兩個方法沒什麼,可是其要寫出的對象有要求,該對象必須實現Serializable接口,來聲明其是能夠序列化的。不然,不能用對象流讀寫。
還有一個關鍵字比較重要,transient,因爲修飾實現了Serializable接口的類內的屬性,被該修飾符修飾的屬性,在以對象流的方式輸出的時候,該字段會被忽略。