【轉載】十圖詳解tensorflow數據讀取機制（附代碼）

時間 2019-12-05

標籤轉載詳解 tensorflow 數據讀取機制代碼简体版

原文原文鏈接

原文地址：機器學習

https://zhuanlan.zhihu.com/p/27238630函數

------------------------------------------------------------------------------------------------------學習

在學習tensorflow的過程當中，有不少小夥伴反映讀取數據這一塊很難理解。確實這一塊官方的教程比較簡略，網上也找不到什麼合適的學習材料。今天這篇文章就以圖片的形式，用最簡單的語言，爲你們詳細解釋一下tensorflow的數據讀取機制，文章的最後還會給出實戰代碼以供參考。flex

1、tensorflow讀取機制圖解spa

首先須要思考的一個問題是，什麼是數據讀取？以圖像數據爲例，讀取數據的過程能夠用下圖來表示：線程

假設咱們的硬盤中有一個圖片數據集0001.jpg，0002.jpg，0003.jpg……咱們只須要把它們讀取到內存中，而後提供給GPU或是CPU進行計算就能夠了。這聽起來很容易，但事實遠沒有那麼簡單。事實上，咱們必需要把數據先讀入後才能進行計算，假設讀入用時0.1s，計算用時0.9s，那麼就意味着每過1s，GPU都會有0.1s無事可作，這就大大下降了運算的效率。3d

如何解決這個問題？方法就是將讀入數據和計算分別放在兩個線程中，將數據讀入內存的一個隊列，以下圖所示：code

讀取線程源源不斷地將文件系統中的圖片讀入到一個內存的隊列中，而負責計算的是另外一個線程，計算須要數據時，直接從內存隊列中取就能夠了。這樣就能夠解決GPU由於IO而空閒的問題！對象

而在tensorflow中，爲了方便管理，在內存隊列前又添加了一層所謂的「文件名隊列」。blog

爲何要添加這一層文件名隊列？咱們首先得了解機器學習中的一個概念：epoch。對於一個數據集來說，運行一個epoch就是將這個數據集中的圖片所有計算一遍。如一個數據集中有三張圖片A.jpg、B.jpg、C.jpg，那麼跑一個epoch就是指對A、B、C三張圖片都計算了一遍。兩個epoch就是指先對A、B、C各計算一遍，而後再所有計算一遍，也就是說每張圖片都計算了兩遍。

tensorflow使用文件名隊列+內存隊列雙隊列的形式讀入文件，能夠很好地管理epoch。下面咱們用圖片的形式來講明這個機制的運行方式。以下圖，仍是以數據集A.jpg, B.jpg, C.jpg爲例，假定咱們要跑一個epoch，那麼咱們就在文件名隊列中把A、B、C各放入一次，並在以後標註隊列結束。

程序運行後，內存隊列首先讀入A（此時A從文件名隊列中出隊）：

再依次讀入B和C：

此時，若是再嘗試讀入，系統因爲檢測到了「結束」，就會自動拋出一個異常（OutOfRange）。外部捕捉到這個異常後就能夠結束程序了。這就是tensorflow中讀取數據的基本機制。若是咱們要跑2個epoch而不是1個epoch，那隻要在文件名隊列中將A、B、C依次放入兩次再標記結束就能夠了。

2、tensorflow讀取數據機制的對應函數

如何在tensorflow中建立上述的兩個隊列呢？

對於文件名隊列，咱們使用 tf.train.string_input_producer 函數。這個函數須要傳入一個文件名list，系統會自動將它轉爲一個文件名隊列。

此外 tf.train.string_input_producer 還有兩個重要的參數，一個是num_epochs，它就是咱們上文中提到的epoch數。另一個就是shuffle，shuffle是指在一個epoch內文件的順序是否被打亂。若設置shuffle=False，以下圖，每一個epoch內，數據仍是按照A、B、C的順序進入文件名隊列，這個順序不會改變：

若是設置shuffle=True，那麼在一個epoch內，數據的先後順序就會被打亂，以下圖所示：

在tensorflow中，內存隊列不須要咱們本身創建，咱們只須要使用reader對象從文件名隊列中讀取數據就能夠了，具體實現能夠參考下面的實戰代碼。

除了tf.train.string_input_producer外，咱們還要額外介紹一個函數：tf.train.start_queue_runners 。初學者會常常在代碼中看到這個函數，但每每很難理解它的用處，在這裏，有了上面的鋪墊後，咱們就能夠解釋這個函數的做用了。

在咱們使用 tf.train.string_input_producer 建立文件名隊列後，整個系統其實仍是處於「停滯狀態」的，也就是說，咱們文件名並無真正被加入到隊列中（以下圖所示）。此時若是咱們開始計算，由於內存隊列中什麼也沒有，計算單元就會一直等待，致使整個系統被阻塞。

而使用tf.train.start_queue_runners以後，纔會啓動填充隊列的線程，這時系統就再也不「停滯」。此後計算單元就能夠拿到數據並進行計算，整個程序也就跑起來了，這就是函數tf.train.start_queue_runners的用處。

3、實戰代碼

對應的代碼以下：

# 導入tensorflow
import tensorflow as tf 

# 新建一個Session
with tf.Session() as sess:
    # 咱們要讀三幅圖片A.jpg, B.jpg, C.jpg
    filename = ['A.jpg', 'B.jpg', 'C.jpg']
    # string_input_producer會產生一個文件名隊列
    filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)
    # reader從文件名隊列中讀數據。對應的方法是reader.read
    reader = tf.WholeFileReader()
    key, value = reader.read(filename_queue)
    # tf.train.string_input_producer定義了一個epoch變量，要對它進行初始化
    tf.local_variables_initializer().run()
    # 使用start_queue_runners以後，纔會開始填充隊列
    threads = tf.train.start_queue_runners(sess=sess)
    i = 0
    while True:
        i += 1
        # 獲取圖片數據並保存
        image_data = sess.run(value)
        with open('read/test_%d.jpg' % i, 'wb') as f:
            f.write(image_data)