本文主要是使用【監督學習】實現一個圖像分類器,目的是識別圖片是貓仍是狗。python
從【數據預處理】到 【圖片預測】實現一個完整的流程, 固然這個分類在 Kaggle 上已經有人用【遷移學習】(VGG,Resnet)作過了,遷移學習我就不說了,我本身用 Keras + Tensorflow 完整的實現了一遍。git
準備工做:github
Ps:NVIDIA的顯卡才支持GPU加速運算,具體哪些卡,看它的官網,使用GPU比CPU要節省四五倍的時間。編程
先導入用到的庫:網絡
import os os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2' import numpy as np from keras import callbacks from keras.models import Sequential, model_from_yaml, load_model from keras.layers import Dense, Conv2D, Flatten, Dropout, MaxPool2D from keras.optimizers import Adam, SGD from keras.preprocessing import image from keras.utils import np_utils, plot_model from sklearn.model_selection import train_test_split from keras.applications.resnet50 import preprocess_input, decode_predictions
注意: os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2' app
這一行代碼是爲了避免讓在控制錢顯示Tensorflow輸出的一堆信息,不寫就能夠看到 tensorflow 輸出的一堆日誌。框架
線上代碼,後面解釋機器學習
def load_data(): path = './data/train/' files = os.listdir(path) images = [] labels = [] for f in files: img_path = path + f img = image.load_img(img_path, target_size=image_size) img_array = image.img_to_array(img) images.append(img_array) if 'cat' in f: labels.append(0) else: labels.append(1) data = np.array(images) labels = np.array(labels) labels = np_utils.to_categorical(labels, 2) return data, labels
由於計算機不能直接對圖片,視頻,文字等直接進行運算,因此首先要把圖片轉成數值類型的矩陣,而且保證你訓練的圖片大小同樣,我在這裏使用keras自帶的圖片處理類 from keras.preprocessing import image ,主要是就是兩個函數 :編程語言
image.load_img(img_path, target_size=image_size) 第一個參數圖片的路徑,第二個參數target_size 是個tuple 類型,(img_w,img_h)
編輯器
image.img_to_array(img) 圖片轉成矩陣,固然你也可使用Numpy的 asarray 效果應該同樣
model = Sequential() model.add(Conv2D(32, kernel_size=(5, 5), input_shape=(img_h, img_h, 3), activation='relu', padding='same')) model.add(MaxPool2D()) model.add(Dropout(0.3)) model.add(Conv2D(64, kernel_size=(5, 5), activation='relu', padding='same')) model.add(MaxPool2D()) model.add(Dropout(0.3)) model.add(Conv2D(128, kernel_size=(5, 5), activation='relu', padding='same')) model.add(MaxPool2D()) model.add(Dropout(0.5)) model.add(Conv2D(256, kernel_size=(5, 5), activation='relu', padding='same')) model.add(MaxPool2D()) model.add(Dropout(0.5)) model.add(Flatten()) model.add(Dense(512, activation='relu')) model.add(Dropout(0.5)) model.add(Dense(2, activation='softmax')) model.summary() //這一句只是輸出網絡結構
模型:使用序貫模型,而後加了4個卷積層,Conv2D 第一個參數就是卷基層的輸出維度,爲何我寫了32呢,由於我電腦渣啊,GPU顯存過小了,不然我就寫64了。參考了VGG,Resnet 等的網絡結構
激活函數:卷基層的激活函數使用非線性激活函數: relu。輸出層的激活函數使用 softmax, 多分類就用這個。
池化層(MaxPool2D):主要是降維,減小參數加速運算,防止過擬合,爲了防止過擬合還加入了 Dropout 層
sgd = Adam(lr=0.0003) model.compile(loss='binary_crossentropy',optimizer=sgd, metrics=['accuracy'])
講一下優化器: Adam(lr=0.0003) 效果最好,基本都是用這個,lr:學習速率,學習速率越小,理論上來講損失函數越小,精度越高,可是計算越慢,默認是 0.001
注意:不加 metrics=['accuracy'] 參數不會輸出日誌,在控制檯看不到變化。
images, lables = load_data() images /= 255 x_train, x_test, y_train, y_test = train_test_split(images, lables, test_size=0.2)
除以 255 是爲了數據歸一化,理論上來講歸一化,會減小損失函數的震盪,有助於減少損失函數提升精度。
print("train.......") tbCallbacks = callbacks.TensorBoard(log_dir='./logs', histogram_freq=1, write_graph=True, write_images=True) model.fit(x_train, y_train, batch_size=nbatch_size, epochs=nepochs, verbose=1, validation_data=(x_test, y_test), callbacks=[tbCallbacks])
運行 TensorBoard 只須要兩行代碼,在cmd,cd D:\Learning\learn_python\ 先切到你的logs目錄的上一級,而後執行 tensorboard --logdir="logs" 便可。
scroe, accuracy = model.evaluate(x_test, y_test, batch_size=nbatch_size) print('scroe:', scroe, 'accuracy:', accuracy)
yaml_string = model.to_yaml() with open('./models/cat_dog.yaml', 'w') as outfile: outfile.write(yaml_string) model.save_weights('./models/cat_dog.h5')
深度學習工程師50%的時間在調參數,49%的時間在對抗過/欠擬合,剩下1%時間在修改網上down下來的程序
深覺得然啊,剛開始個人網絡結構不是這樣的,卷基層只有2層,kernel_size=(3,3), 學習速率採用的默認參數,全鏈接層是: Dense(256),訓練以後發現欠擬合,精度只有86%左右,後來增長了卷積層數量,調小學習速率等幾輪的調參,精度接近93%,還能夠繼續提高,但我不想調了,由於筆記本的GPU太渣(1050ti)訓練一次差很少須要一個多小時。
調參也沒什麼好辦法,只能一次次的去試,若是採用遷移學習,VGG,Resnet的網絡結構和權重的話,分分鐘能上98%,毫無難度。
def pred_data(): with open('./models/cat_dog.yaml') as yamlfile: loaded_model_yaml = yamlfile.read() model = model_from_yaml(loaded_model_yaml) model.load_weights('./models/cat_dog.h5') sgd = Adam(lr=0.0003) model.compile(loss='categorical_crossentropy',optimizer=sgd, metrics=['accuracy']) images = [] path='./data/test/' for f in os.listdir(path): img = image.load_img(path + f, target_size=image_size) img_array = image.img_to_array(img) x = np.expand_dims(img_array, axis=0) x = preprocess_input(x) result = model.predict_classes(x,verbose=0) print(f,result[0])
由於作的分類任務,我在加載數據的時候寫的是 cat 索引爲 0 ,dog索引爲 1,因此輸出的時候,預測的值與之對應,我從百度找了20張圖片貓狗個10張,圖片長這樣:
預測的結果以下:
能夠看到,貓 有一張錯誤,狗 有兩張錯誤,這個精度在小樣本數據集不適用遷移學習的狀況下仍是能夠的。
完整代碼:https://github.com/jarvisqi/deep_learning