原文地址:機器學習
https://zhuanlan.zhihu.com/p/27238630函數
------------------------------------------------------------------------------------------------------學習
在學習tensorflow的過程當中,有不少小夥伴反映讀取數據這一塊很難理解。確實這一塊官方的教程比較簡略,網上也找不到什麼合適的學習材料。今天這篇文章就以圖片的形式,用最簡單的語言,爲你們詳細解釋一下tensorflow的數據讀取機制,文章的最後還會給出實戰代碼以供參考。flex
1、tensorflow讀取機制圖解spa
首先須要思考的一個問題是,什麼是數據讀取?以圖像數據爲例,讀取數據的過程能夠用下圖來表示:線程
假設咱們的硬盤中有一個圖片數據集0001.jpg,0002.jpg,0003.jpg……咱們只須要把它們讀取到內存中,而後提供給GPU或是CPU進行計算就能夠了。這聽起來很容易,但事實遠沒有那麼簡單。事實上,咱們必需要把數據先讀入後才能進行計算,假設讀入用時0.1s,計算用時0.9s,那麼就意味着每過1s,GPU都會有0.1s無事可作,這就大大下降了運算的效率。3d
如何解決這個問題?方法就是將讀入數據和計算分別放在兩個線程中,將數據讀入內存的一個隊列,以下圖所示:code
讀取線程源源不斷地將文件系統中的圖片讀入到一個內存的隊列中,而負責計算的是另外一個線程,計算須要數據時,直接從內存隊列中取就能夠了。這樣就能夠解決GPU由於IO而空閒的問題!對象
而在tensorflow中,爲了方便管理,在內存隊列前又添加了一層所謂的「文件名隊列」。blog
爲何要添加這一層文件名隊列?咱們首先得了解機器學習中的一個概念:epoch。對於一個數據集來說,運行一個epoch就是將這個數據集中的圖片所有計算一遍。如一個數據集中有三張圖片A.jpg、B.jpg、C.jpg,那麼跑一個epoch就是指對A、B、C三張圖片都計算了一遍。兩個epoch就是指先對A、B、C各計算一遍,而後再所有計算一遍,也就是說每張圖片都計算了兩遍。
tensorflow使用文件名隊列+內存隊列 雙隊列的形式讀入文件,能夠很好地管理epoch。下面咱們用圖片的形式來講明這個機制的運行方式。以下圖,仍是以數據集A.jpg, B.jpg, C.jpg爲例,假定咱們要跑一個epoch,那麼咱們就在文件名隊列中把A、B、C各放入一次,並在以後標註隊列結束。
程序運行後,內存隊列首先讀入A(此時A從文件名隊列中出隊):
再依次讀入B和C:
此時,若是再嘗試讀入,系統因爲檢測到了「結束」,就會自動拋出一個異常(OutOfRange)。外部捕捉到這個異常後就能夠結束程序了。這就是tensorflow中讀取數據的基本機制。 若是咱們要跑2個epoch而不是1個epoch,那隻要在文件名隊列中將A、B、C依次放入兩次再標記結束就能夠了。
如何在tensorflow中建立上述的兩個隊列呢?
對於文件名隊列,咱們使用 tf.train.string_input_producer 函數。這個函數須要傳入一個文件名list,系統會自動將它轉爲一個文件名隊列。
此外 tf.train.string_input_producer 還有兩個重要的參數,一個是num_epochs,它就是咱們上文中提到的epoch數。另一個就是shuffle,shuffle是指在一個epoch內文件的順序是否被打亂。若設置shuffle=False,以下圖,每一個epoch內,數據仍是按照A、B、C的順序進入文件名隊列,這個順序不會改變:
若是設置shuffle=True,那麼在一個epoch內,數據的先後順序就會被打亂,以下圖所示:
在tensorflow中,內存隊列不須要咱們本身創建,咱們只須要使用reader對象從文件名隊列中讀取數據就能夠了,具體實現能夠參考下面的實戰代碼。
除了tf.train.string_input_producer外,咱們還要額外介紹一個函數:tf.train.start_queue_runners 。初學者會常常在代碼中看到這個函數,但每每很難理解它的用處,在這裏,有了上面的鋪墊後,咱們就能夠解釋這個函數的做用了。
在咱們使用 tf.train.string_input_producer 建立文件名隊列後,整個系統其實仍是處於「停滯狀態」的,也就是說,咱們文件名並無真正被加入到隊列中(以下圖所示)。此時若是咱們開始計算,由於內存隊列中什麼也沒有,計算單元就會一直等待,致使整個系統被阻塞。
而使用tf.train.start_queue_runners以後,纔會啓動填充隊列的線程,這時系統就再也不「停滯」。此後計算單元就能夠拿到數據並進行計算,整個程序也就跑起來了,這就是函數tf.train.start_queue_runners的用處。
對應的代碼以下:
# 導入tensorflow import tensorflow as tf # 新建一個Session with tf.Session() as sess: # 咱們要讀三幅圖片A.jpg, B.jpg, C.jpg filename = ['A.jpg', 'B.jpg', 'C.jpg'] # string_input_producer會產生一個文件名隊列 filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5) # reader從文件名隊列中讀數據。對應的方法是reader.read reader = tf.WholeFileReader() key, value = reader.read(filename_queue) # tf.train.string_input_producer定義了一個epoch變量,要對它進行初始化 tf.local_variables_initializer().run() # 使用start_queue_runners以後,纔會開始填充隊列 threads = tf.train.start_queue_runners(sess=sess) i = 0 while True: i += 1 # 獲取圖片數據並保存 image_data = sess.run(value) with open('read/test_%d.jpg' % i, 'wb') as f: f.write(image_data)
咱們這裏使用 filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5) 創建了一個會跑5個epoch的文件名隊列。
並使用reader讀取,reader每次讀取一張圖片並保存。
運行代碼後,咱們獲得就能夠看到read文件夾中的圖片,正好是按順序的5個epoch:
若是咱們設置filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)中的shuffle=True,那麼在每一個epoch內圖像就會被打亂,如圖所示:
咱們這裏只是用三張圖片舉例,實際應用中一個數據集確定不止3張圖片,不過涉及到的原理都是共通的。
這篇文章主要用圖解的方式詳細介紹了tensorflow讀取數據的機制,最後還給出了對應的實戰代碼,但願可以給你們學習tensorflow帶來一些實質性的幫助。若是各位小夥伴還有什麼疑問,歡迎評論或私信告訴我,謝謝~
------------------------------------------------------------------------------------------------------