【新聞】:機器學習煉丹術的粉絲的人工智能交流羣已經創建,目前有目標檢測、醫學圖像、NLP等多個學術交流分羣和水羣嘮嗑的總羣,歡迎你們加煉丹兄爲好友,加入煉丹協會。微信:cyx645016617.python
參考目錄:
微信
本文的代碼已經上傳公衆號後臺,回覆【PyTorch】獲取。多線程
想要把一個圖片,轉換成RGB3通道的一個張量,咱們怎麼作呢?你們第一反應應該是PIL這個庫吧機器學習
from PIL import Image import numpy as np image = Image.open('./bug1.jpg') image.show()
展現的圖片:
函數
而後咱們這個image如今是PIL格式的,咱們使用numpy.array()
來將其轉換成numpy的張量的形式:學習
image = np.array(image) print(image.shape) >>>(326, 312, 3)
能夠看到,這個第三維度是3。對於pytorch而言,數據的第一維度應該是樣本數量,第二維度是通道數,第三四是圖像的寬高,所以PIL讀入的圖片,每每須要把通道數的這個維度移動到第二維度上才能對接上pytorch的形式。(transpose方法來實現這個功能,這裏不細說)ui
下面是重點啦,對於tensorflow,tf中本身帶了一個解碼函數,先看一下個人文件目錄:
人工智能
import tensorflow as tf images = tf.io.gfile.glob('./*.jpeg') print(images,type(images)) > ['.\\bug1.jpeg', '.\\bug2.jpeg'] <class 'list'>
能夠看出來:線程
tensorflow.io.gfile.glob()
是讀取路徑下的全部符合條件的文件,而且把路徑作成一個list返回;glob.glob()
方法;image = tf.io.read_file('./bug1.jpeg') image = tf.image.decode_jpeg(image,channels=3) print(image.shape,type(image)) > (326, 312, 3) <class 'tensorflow.python.framework.ops.EagerTensor'>
須要注意的是:code
tf.io.read_file()
這個獲得的返回值是二進制格式,因此須要下面的tf.image.decode_jpeg
進行一個解碼;decode_jpeg
的第一個參數就是讀取的二進制文件,而後channels是輸出的圖片的通道數,3就是RPB三個通道,若是是1的話,就是灰度圖片,ratio是圖片大小的一個縮小比例,默認是1,能夠是2和4,一會看一下ratio=2的狀況;image = tf.io.read_file('./bug1.jpeg') image = tf.image.decode_jpeg(image,channels=1,ratio=2) print(image.shape,type(image)) > (163, 156, 1) <class 'tensorflow.python.framework.ops.EagerTensor'>
寬高都變成了原來的一半,而後通道數是1,都和預想的同樣。使用decode_jpeg等解碼函數獲得的結果,是uint8的類型的,簡單地說就是整數,0到255範圍的。在對圖片進行操做的時候,咱們須要將其標準化到0到1區間的,所以須要將其轉換成float32
類型的。因此對上述代碼進行補充:
image = tf.io.read_file('./bug1.jpeg') image = tf.image.decode_jpeg(image,channels=1,ratio=2) print(image.shape,type(image)) image = tf.image.resize(image,[256,256]) # 統一圖片大小 image = tf.cast(image,tf.float32) # 轉換類型 image = image/255 # 歸一化 print(image)
從結果來看,數據類型已經改變:
下面是dataset更正式的寫法,關於TF2的問題,不要百度!百度到的都是TF1的解答,看的我暈死了,TF的API的結構真是不太友好。。。
def read_image(path): image = tf.io.read_file(path) image = tf.image.decode_jpeg(image, channels=3, ratio=1) image = tf.image.resize(image, [256, 256]) # 統一圖片大小 image = tf.cast(image, tf.float32) # 轉換類型 image = image / 255 # 歸一化 return image images = tf.io.gfile.glob('./*.jpeg') dataset = tf.data.Dataset.from_tensor_slices(images) AUTOTUNE = tf.data.experimental.AUTOTUNE dataset = dataset.map(read_image,num_parallel_calls=AUTOTUNE) dataset = dataset.shuffle(1).batch(1) for a in dataset.take(2): print(a.shape)
代碼中須要注意的是:
tf.data.Dataset.from_tensor_slices()
返回的就是一個tensorflow的dataset類型,能夠簡單理解爲一個可迭代的list,而且有不少其餘方法;dataset.map
就是用實現定義好的函數,對處理dataset中每個元素,在上面代碼中是把路徑的字符串變成該路徑讀取的圖片張量,對圖片的預處理應該也在這部分進行吧;.batch()
就是把dataset中的元素組裝batch;.take(num)
就好了,這個num就是從dataset中取出來的batch的數量,也就是循環的次數吧。AUTOTUNE = tf.data.experimental.AUTOTUNE
就是根據你的cpu的狀況,自動判斷多線程的數量。