【小白學PyTorch】16 TF2讀取圖片的方法

時間 2020-10-01

標籤小白學PyTorch tf2 讀取圖片方法简体版

原文原文鏈接

【新聞】：機器學習煉丹術的粉絲的人工智能交流羣已經創建，目前有目標檢測、醫學圖像、NLP等多個學術交流分羣和水羣嘮嗑的總羣，歡迎你們加煉丹兄爲好友，加入煉丹協會。微信：cyx645016617.python

參考目錄：
微信

本文的代碼已經上傳公衆號後臺，回覆【PyTorch】獲取。多線程

1 PIL讀取圖片

想要把一個圖片，轉換成RGB3通道的一個張量，咱們怎麼作呢？你們第一反應應該是PIL這個庫吧機器學習

from PIL import Image
import numpy as np
image = Image.open('./bug1.jpg')
image.show()

展現的圖片：
函數

而後咱們這個image如今是PIL格式的，咱們使用numpy.array()來將其轉換成numpy的張量的形式：學習

image = np.array(image)
print(image.shape)
>>>(326, 312, 3)

能夠看到，這個第三維度是3。對於pytorch而言，數據的第一維度應該是樣本數量，第二維度是通道數，第三四是圖像的寬高，所以PIL讀入的圖片，每每須要把通道數的這個維度移動到第二維度上才能對接上pytorch的形式。（transpose方法來實現這個功能，這裏不細說）ui

2 TF讀取圖片

下面是重點啦，對於tensorflow，tf中本身帶了一個解碼函數，先看一下個人文件目錄：
人工智能

import tensorflow as tf
images = tf.io.gfile.glob('./*.jpeg')
print(images，type(images))
> ['.\\bug1.jpeg', '.\\bug2.jpeg'] <class 'list'>

能夠看出來：線程

這個tensorflow.io.gfile.glob()是讀取路徑下的全部符合條件的文件，而且把路徑作成一個list返回；
這個功能也能夠用glob庫函數實現，我記得是glob.glob()方法；
這裏的bug1和bug2實際上是同一張圖片，都是上面的那個小兔子。

image = tf.io.read_file('./bug1.jpeg')
image = tf.image.decode_jpeg(image,channels=3)
print(image.shape,type(image))
> (326, 312, 3) <class 'tensorflow.python.framework.ops.EagerTensor'>

須要注意的是：code

tf.io.read_file()這個獲得的返回值是二進制格式，因此須要下面的tf.image.decode_jpeg進行一個解碼；
decode_jpeg的第一個參數就是讀取的二進制文件，而後channels是輸出的圖片的通道數，3就是RPB三個通道，若是是1的話，就是灰度圖片，ratio是圖片大小的一個縮小比例，默認是1，能夠是2和4，一會看一下ratio=2的狀況；
這個image的type是一個tensorflow特別的Tensor的形式，而不是pytorch的那種tensor的形式了。

image = tf.io.read_file('./bug1.jpeg')
image = tf.image.decode_jpeg(image,channels=1，ratio=2)
print(image.shape,type(image))
> (163, 156, 1) <class 'tensorflow.python.framework.ops.EagerTensor'>

寬高都變成了原來的一半，而後通道數是1，都和預想的同樣。使用decode_jpeg等解碼函數獲得的結果，是uint8的類型的，簡單地說就是整數，0到255範圍的。在對圖片進行操做的時候，咱們須要將其標準化到0到1區間的，所以須要將其轉換成float32類型的。因此對上述代碼進行補充：

image = tf.io.read_file('./bug1.jpeg')
image = tf.image.decode_jpeg(image,channels=1,ratio=2)
print(image.shape,type(image))
image = tf.image.resize(image,[256,256]) # 統一圖片大小
image = tf.cast(image,tf.float32) # 轉換類型
image = image/255 # 歸一化
print(image)

從結果來看，數據類型已經改變：

3 TF構建數據集

下面是dataset更正式的寫法，關於TF2的問題，不要百度！百度到的都是TF1的解答，看的我暈死了，TF的API的結構真是不太友好。。。

def read_image(path):
    image = tf.io.read_file(path)
    image = tf.image.decode_jpeg(image, channels=3, ratio=1)
    image = tf.image.resize(image, [256, 256])  # 統一圖片大小
    image = tf.cast(image, tf.float32)  # 轉換類型
    image = image / 255  # 歸一化
    return image
images = tf.io.gfile.glob('./*.jpeg')
dataset = tf.data.Dataset.from_tensor_slices(images)
AUTOTUNE = tf.data.experimental.AUTOTUNE
dataset = dataset.map(read_image,num_parallel_calls=AUTOTUNE)
dataset = dataset.shuffle(1).batch(1)
for a in dataset.take(2):
    print(a.shape)

代碼中須要注意的是：

glob獲取一個文件的list，本次就兩個文件名字，一個bug1.jpeg,一個bug2.jpeg;
tf.data.Dataset.from_tensor_slices()返回的就是一個tensorflow的dataset類型，能夠簡單理解爲一個可迭代的list,而且有不少其餘方法；
dataset.map就是用實現定義好的函數，對處理dataset中每個元素，在上面代碼中是把路徑的字符串變成該路徑讀取的圖片張量，對圖片的預處理應該也在這部分進行吧；
dataset.shuffle就是亂序，.batch()就是把dataset中的元素組裝batch；
在獲取dataset中的元素的時候，TF1中有什麼迭代器的定義啊，什麼iter，可是TF2不用這些，直接.take(num)就好了，這個num就是從dataset中取出來的batch的數量，也就是循環的次數吧。
AUTOTUNE = tf.data.experimental.AUTOTUNE 就是根據你的cpu的狀況，自動判斷多線程的數量。
上面代碼的輸出結果爲：