卷積神經網絡提取特徵並用於SVM

時間 2019-12-14

標籤神經網絡提取特徵並用 svm 简体版

原文原文鏈接

目標是對UCI的手寫數字數據集進行識別，樣本數量大約是1600個。圖片大小爲16x16。要求必須使用SVM做爲二分類的分類器。
本文重點是如何使用卷積神經網絡(CNN)來提取手寫數字圖片特徵，主要想看如何提取特徵的請直接看源代碼部分的94行左右，只要對tensorflow有一點了解就能夠看懂。在最後會有完整的源代碼、處理後數據的分享連接。轉載請保留原文連接，謝謝。python

UCI手寫數字的數據集

源數據下載：http://oddmqitza.bkt.clouddn.com/archivetempsemeion.data
其中前256維爲16x16的圖片，後10維爲one hot編碼的標籤。即0010000000表明2,1000000000表明0.
組合成圖片大約是這樣的：
git

卷積和池化形象理解

卷積
github

池化
算法

仔細的看，慢慢想就能明白CNN提取特徵的思想巧妙之處。
能明白這兩點，剩下的東西就和普通的神經網絡區別不大了。網絡

爲何要用CNN提取特徵？

1.因爲卷積和池化計算的性質，使得圖像中的平移部分對於最後的特徵向量是沒有影響的。從這一角度說，提取到的特徵更不容易過擬合。並且因爲平移不變性，因此平移字符進行變造是無心義的，省去了再對樣本進行變造的過程。
2.CNN抽取出的特徵要比簡單的投影、方向，重心都要更科學。不會讓特徵提取成爲最後提升準確率的瓶頸、天花板
3.能夠利用不一樣的卷積、池化和最後輸出的特徵向量的大小控制總體模型的擬合能力。在過擬合時能夠下降特徵向量的維數，在欠擬合時能夠提升卷積層的輸出維數。相比於其餘特徵提取方法更加靈活app

算法流程

整理訓練網絡的數據 -> 創建卷積神經網絡 -> 將數據代入進行訓練 -> 保存訓練好的模型 -> 把數據代入模型得到特徵向量 -> 用特徵向量代替本來的X送入SVM訓練 -> 測試時一樣將X轉換爲特徵向量以後用SVM預測，得到結果。dom

CNN結構和參數

如圖所示：
ide

第一個卷積核大小爲5x5
第一個池化層是2x2最大池化，輸出32維函數

第二個卷積核大小爲5x5
第二個池化層是2x2最大池化，輸出64維測試

全鏈接層輸出256維特徵向量。

輸出層最終採用softmax函數，以交叉熵做爲優化目標。

SVM的參數

SVM採用的是RBF核
C取0.9
Tol取1e-3
Gamma爲scikit-learn自動設置
其實在實驗中發現，若是特徵提取的不夠好，那麼怎麼調SVM的參數也達不到一個理想的狀態。而特徵提取的正確，那麼一樣，SVM的參數影響也不是很大，可能調了幾回最後僅僅改變一兩個樣本的預測結果。

樣本處理過程

1.將原樣本隨機地分爲兩半。一份爲訓練集，一份爲測試集

2.重複1過程十次，獲得十個訓練集和十個對應的測試集

操做過程

1.取十份訓練集中的一份和其對應的測試集。代入到CNN和SVM中訓練。計算模型在剩下9個測試集中的表現。

2.依次取訓練集和測試集，則可完成十次第一步。

3.將十次的表現綜合評價

源代碼及註釋

# coding=utf8
import random

import numpy as np
import tensorflow as tf
from sklearn import svm

right0 = 0.0  # 記錄預測爲1且實際爲1的結果數
error0 = 0  # 記錄預測爲1但實際爲0的結果數
right1 = 0.0  # 記錄預測爲0且實際爲0的結果數
error1 = 0  # 記錄預測爲0但實際爲1的結果數

for file_num in range(10):
    # 在十個隨機生成的不相干數據集上進行測試，將結果綜合
    print 'testing NO.%d dataset.......' % file_num
    ff = open('digit_train_' + file_num.__str__() + '.data')
    rr = ff.readlines()
    x_test2 = []
    y_test2 = []
    for i in range(len(rr)):
        x_test2.append(map(int, map(float, rr[i].split(' ')[:256])))
        y_test2.append(map(int, rr[i].split(' ')[256:266]))
    ff.close()
    # 以上是讀出訓練數據
    ff2 = open('digit_test_' + file_num.__str__() + '.data')
    rr2 = ff2.readlines()
    x_test3 = []
    y_test3 = []
    for i in range(len(rr2)):
        x_test3.append(map(int, map(float, rr2[i].split(' ')[:256])))
        y_test3.append(map(int, rr2[i].split(' ')[256:266]))
    ff2.close()
    # 以上是讀出測試數據

    sess = tf.InteractiveSession()


    # 創建一個tensorflow的會話

    # 初始化權值向量
    def weight_variable(shape):
        initial = tf.truncated_normal(shape, stddev=0.1)
        return tf.Variable(initial)


    # 初始化偏置向量
    def bias_variable(shape):
        initial = tf.constant(0.1, shape=shape)
        return tf.Variable(initial)


    # 二維卷積運算，步長爲1，輸出大小不變
    def conv2d(x, W):
        return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')


    # 池化運算，將卷積特徵縮小爲1/2
    def max_pool_2x2(x):
        return tf.nn.max_pool(x, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')


    # 給x，y留出佔位符，以便將來填充數據
    x = tf.placeholder("float", [None, 256])
    y_ = tf.placeholder("float", [None, 10])
    # 設置輸入層的W和b
    W = tf.Variable(tf.zeros([256, 10]))
    b = tf.Variable(tf.zeros([10]))
    # 計算輸出，採用的函數是softmax（輸入的時候是one hot編碼）
    y = tf.nn.softmax(tf.matmul(x, W) + b)

    # 第一個卷積層，5x5的卷積核，輸出向量是32維
    w_conv1 = weight_variable([5, 5, 1, 32])
    b_conv1 = bias_variable([32])

    x_image = tf.reshape(x, [-1, 16, 16, 1])
    # 圖片大小是16*16，,-1表明其餘維數自適應
    h_conv1 = tf.nn.relu(conv2d(x_image, w_conv1) + b_conv1)
    h_pool1 = max_pool_2x2(h_conv1)
    # 採用的最大池化，由於都是1和0，平均池化沒有什麼意義

    # 第二層卷積層，輸入向量是32維，輸出64維，仍是5x5的卷積核
    w_conv2 = weight_variable([5, 5, 32, 64])
    b_conv2 = bias_variable([64])

    h_conv2 = tf.nn.relu(conv2d(h_pool1, w_conv2) + b_conv2)
    h_pool2 = max_pool_2x2(h_conv2)

    # 全鏈接層的w和b
    w_fc1 = weight_variable([4 * 4 * 64, 256])
    b_fc1 = bias_variable([256])
    # 此時輸出的維數是256維
    h_pool2_flat = tf.reshape(h_pool2, [-1, 4 * 4 * 64])
    h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, w_fc1) + b_fc1)
    # h_fc1是提取出的256維特徵，很關鍵。後面就是用這個輸入到SVM中
    #比方說，我訓練完數據了，那麼想要提取出來全鏈接層的h_fc1，
    #那麼使用的語句是sess.run(h_fc1, feed_dict={x: input_x})，返回的結果就是特徵向量

    # 設置dropout，不然很容易過擬合
    keep_prob = tf.placeholder("float")
    h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)

    # 輸出層，在本實驗中只利用它的輸出反向訓練CNN，至於其具體數值我不關心
    w_fc2 = weight_variable([256, 10])
    b_fc2 = bias_variable([10])

    y_conv = tf.nn.softmax(tf.matmul(h_fc1_drop, w_fc2) + b_fc2)
    cross_entropy = -tf.reduce_sum(y_ * tf.log(y_conv))
    # 設置偏差代價以交叉熵的形式
    train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
    # 用adma的優化算法優化目標函數
    correct_prediction = tf.equal(tf.argmax(y_conv, 1), tf.argmax(y_, 1))
    accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
    sess.run(tf.initialize_all_variables())
    for i in range(3000):
        # 跑3000輪迭代，每次隨機從訓練樣本中抽出50個進行訓練
        batch = ([], [])
        p = random.sample(range(795), 50)
        for k in p:
            batch[0].append(x_test2[k])
            batch[1].append(y_test2[k])
        if i % 100 == 0:
            train_accuracy = accuracy.eval(feed_dict={x: batch[0], y_: batch[1], keep_prob: 1.0})
            # print "step %d, train accuracy %g" % (i, train_accuracy)
        train_step.run(feed_dict={x: batch[0], y_: batch[1], keep_prob: 0.6})
        # 設置dropout的參數爲0.6，測試獲得，大點收斂的慢，小點出現過擬合

    print "test accuracy %g" % accuracy.eval(feed_dict={x: x_test3, y_: y_test3, keep_prob: 1.0})


    for h in range(len(y_test2)):
        if np.argmax(y_test2[h]) == 7:
            y_test2[h] = 1
        else:
            y_test2[h] = 0
    for h in range(len(y_test3)):
        if np.argmax(y_test3[h]) == 7:
            y_test3[h] = 1
        else:
            y_test3[h] = 0
    # 以上兩步都是爲了將源數據的one hot編碼改成1和0，個人學號尾數爲7
    x_temp = []
    for g in x_test2:
        x_temp.append(sess.run(h_fc1, feed_dict={x: np.array(g).reshape((1, 256))})[0])
    # 將原來的x帶入訓練好的CNN中計算出來全鏈接層的特徵向量，將結果做爲SVM中的特徵向量
    x_temp2 = []
    for g in x_test3:
        x_temp2.append(sess.run(h_fc1, feed_dict={x: np.array(g).reshape((1, 256))})[0])

    clf = svm.SVC(C=0.9, kernel='rbf')
    clf.fit(x_temp, y_test2)
    # SVM選擇了rbf核，C選擇了0.9

    for j in range(len(x_temp2)):
        # 驗證時出現四種狀況分別對應四個變量存儲
        if clf.predict(x_temp2[j])[0] == y_test3[j] == 1:
            right0 += 1
        elif clf.predict(x_temp2[j])[0] == y_test3[j] == 0:
            right1 += 1
        elif clf.predict(x_temp2[j])[0] == 1 and y_test3[j] == 0:
            error0 += 1
        else:
            error1 += 1

accuracy = right0 / (right0 + error0)  # 準確率
recall = right0 / (right0 + error1)  # 召回率
print 'svm right ratio ', (right0 + right1) / (right0 + right1 + error0 + error1) #分類的正確率
print 'accuracy ', accuracy
print 'recall ', recall
print 'F1 score ', 2 * accuracy * recall / (accuracy + recall)  # F1值

最後結果爲：

分類的正確率達到了99.1%,準確率98.77%，召回率爲92.67%,F1值爲0.9562
因爲咱們是十次驗證取平均值，因此模型的泛化能力和準確度都仍是比較使人滿意的。
所有源代碼和使用到的數據（按照前文規則生成的訓練集和測試集）下載連接：https://raw.githubusercontent.com/chuxiuhong/cloudphoto/master/CNN-SVM.rar

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。