mnist手寫數字識別

數據包連接:http://pan.baidu.com/s/1bp2egtL 密碼:lmkbgit

修改程序中文件地址:"E:/eclipseSpace/TensorflowTestPython/src/dataset",將數據包放在這個路徑下便可。算法

 

# 手寫識別數組

from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("E:/eclipseSpace/TensorflowTestPython/src/dataset", one_hot=True)
batch_size = 100
xs, ys = mnist.train.next_batch(batch_size)
# 從train的集合中選取batch_size個訓練數據
print("X shape:", xs.shape)
print("Y shape:", ys.shape)網絡

import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_dataapp

# MNIST數據集相關的常數
INPUT_NODE = 784  # 輸入層的節點數。對於MNIST數據集,這個就等於圖片的像素
OUTPUT_NODE = 10  # 輸出層的節點數。這個等於類別的數目。由於MNIST數據集中須要區分的是0-9這10個數字,因此這裏輸出層的節點數爲10eclipse

# 配置神經網絡的參數
LAYER1_NODE = 500  # 隱藏層節點數。這裏使用只有一個隱藏層的網絡結構做爲樣例
                # 這個隱藏層有500個節點
BATCH_SIZE = 100  # 一個訓練batch中的訓練數據個數。數字越小時,訓練過程越接近,隨機梯度降低;數字越大時,訓練越接近梯度降低
LEARNING_RATE_BASE = 0.8  # 基礎的學習率
LEARNING_RATE_DECAY = 0.99  # 學習率的衰減率
REGULARIZATION_RATE = 0.0001  # 描述模型複雜度的正則化在損失函數中的係數
TRAINING_STEPS = 30000  # 訓練輪數
MOVING_AVERAGE_DECAY = 0.99  # 滑動平均衰減率函數

# 一個輔助函數,給定神經網絡的輸入和全部參數,計算神經網絡的前向傳播結果。
# 在這裏定義了一個使用ReLU激活函數的三層全鏈接神經網絡。經過加入隱藏層實現了多層網絡結構
# 經過ReLU激活函數實現了去線性化。在這個函數中也支持傳入用於計算參數的平均值的類
# 這樣方便在測試時使用滑動平均模型
def inference(input_tensor, avg_class, weights1, biases1, weights2, biases2):
    # 當沒有提供滑動平均類時,直接使用參數當前的取值。
    if avg_class == None:
        # 計算隱藏層的前向傳播結果,這裏使用了ReLU激活函數
        layer1 = tf.nn.relu(tf.matmul(input_tensor, weights1) + biases1)
        
        # 計算輸出層的前向傳播結果。由於在計算損失函數時會一併計算softmax函數
        # 因此這裏不須要加入激活函數。並且不加入softmax不會影響預測結果。由於預測時
        # 使用的是不一樣類別對應節點輸出值的相對大小,有沒有softmax層對最後分類結果的計算沒有影響。
        return tf.matmul(layer1, weights2) + biases2
    else:
        # 首先使用avg_class.average函數來計算得出變量的滑動平均值,
        # 而後再計算相應的神經網絡前向傳播結果
        layer1 = tf.nn.relu(tf.matmul(input_tensor, avg_class.average(weights1)) + avg_class.average(biases1))
        return tf.matmul(layer1, avg_class.average(weights2)) + avg_class.average(biases2)學習

# 訓練模型的過程
def train(mnist):
    x = tf.placeholder(tf.float32, [None, INPUT_NODE], name='x-input')
    y_ = tf.placeholder(tf.float32, [None, OUTPUT_NODE], name='y-input')
    
    # 生成隱藏層的參數
    weights1 = tf.Variable(tf.truncated_normal([INPUT_NODE, LAYER1_NODE], stddev=0.1))
    biases1 = tf.Variable(tf.constant(0.1, shape=[LAYER1_NODE]))
    # 生成輸出層的參數
    weights2 = tf.Variable(tf.truncated_normal([LAYER1_NODE, OUTPUT_NODE], stddev=0.1))
    biases2 = tf.Variable(tf.constant(0.1, shape=[OUTPUT_NODE]))
    # 計算在當前參數下神經網絡前向傳播的結果。這裏給出的用於計算滑動平均的類爲None
    # 因此函數不會使用參數的滑動平均值
    y = inference(x, None, weights1, biases1, weights2, biases2)
    
    # 定義存儲訓練輪數的變量。這個變量不須要計算滑動平均值,因此這裏指定這個變量爲不可訓練的變量(trainable=False) .在使用Tensorflow訓練神經網絡時
    # 通常會將表明訓練輪數的變量指定爲不可訓練的參數。
    global_step = tf.Variable(0, trainable=False)
    
        # 給定滑動平均衰減率和訓練輪數的變量,初始化滑動平均類
    # 給定訓練輪數的變量能夠加快訓練早期變量的更新速度
    variable_averages = tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECAY, global_step)
    
    # 在全部表明神經網絡參數的變量上使用滑動平均。其餘輔助變量(好比g  lobal_step)就不須要了
    # tf.variables返回的就是圖上集合
    # GraphKeys.TRAINABLE_VARIABLES中的元素。這個集合的元素就是全部沒有指定你trainable=False的參數
    variable_averages_op = variable_averages.apply(tf.trainable_variables())
    
    # 計算使用了滑動平均以後的前向傳播結果。
    # 須要明確調用average函數
    average_y = inference(x, variable_averages, weights1, biases1, weights2, biases2)
    
    # 計算交叉熵做爲刻畫預測值和真實值之間差距的損失函數。這裏使用了TensorFlow中提供的sparse_softmax_cross_entropy_with_logits函數來計算交叉熵
    # 當分類問題只有一個正確答案時,可使用這個函數來加速交叉熵的計算。
    # MNIST問題的圖片中只包含了0-9中的一個數字,因此可使用這個函數來計算交叉熵損失
    # 這個函數的第一個參數是神經網絡不包括softmax層的前向傳播結果,第二個是訓練數據的正確答案。
    # 由於標準答案是一個長度爲10的一維數組,而該函數須要提供一個正確答案的數字,因此須要使用tf.argmax函數來獲得正確答案對應的類別編號
    cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y, labels=tf.argmax(y_, 1))
    
    # 計算在當前batch中全部樣類的交叉熵平均值
    cross_entropy_mean = tf.reduce_mean(cross_entropy)
    
    # 計算L2正則化損失函數
    regularizer = tf.contrib.layers.l2_regularizer(REGULARIZATION_RATE)
    
    # 計算模型的正則化損失。通常只計算神經網絡邊上權重的正則化損失,而不使用偏置項
    regularization = regularizer(weights1) + regularizer(weights2)
    
    # 總損失等於交叉熵損失和正則化損失的和
    loss = cross_entropy_mean + regularization
    # 設置指數衰減的學習率
    learning_rate = tf.train.exponential_decay(
        LEARNING_RATE_BASE,  # 基礎的學習率,隨着迭代的進行,更新變量時使用的學習率在這個基礎上遞減
        global_step,  # 當前迭代的輪數
        mnist.train._num_examples / BATCH_SIZE,  # 過完全部的訓練數據須要的迭代次數 
        LEARNING_RATE_DECAY)  # 學習率衰減速度
    
    # 使用tf.train.GradientDescentOptimizer優化算法來優化損失函數。這裏損失函數包含了
    # 交叉熵損失和L2正則化損失
    train_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss, global_step=global_step)
    # 在訓練神經網絡模型時,每過一遍數據既須要經過反向傳播來更新神經網絡中的參數
    # 又要更新每個參數的滑動平均值。爲了一次完成多個操做,Tensorflow提供了
    # tf.control_dependencies和tf.group兩種機制下面兩行程序和
    # train_op=tf.group(train_step,variables_averages_op)是等價的
    with tf.control_dependencies([train_step, variable_averages_op]):
        train_op = tf.no_op(name='train')
    
    # 檢驗使用了滑動平均模型的神經網絡前向傳播結果是否正確。tf.argmax(average_y,1)
    # 計算每個樣例的預測答案。其中average_y是一個batch_size*10的二維數組,
    # 每一行表示一個樣例的前向傳播結果。tf.argmax的第二個參數"1"表示選取最大的操做僅在第一個維度
    # 中進行,也就是說,只在每一行選取最大值對應的下標。因而獲得的結果是一個長度爲
    # batch的一維數組,這個一維數組中的值就表示了每個樣例對應的數字識別結果。
    # tf.equal判斷兩個張量的每一維是否相等,若是相等返回True,不然返回False
    correct_prediction = tf.equal(tf.arg_max(average_y, 1), tf.arg_max(y_, 1))
    
    # 這個運算首先將一個布爾型的數值轉換爲實數型,而後計算平均值。這個平均值就是模型在
    # 這一組數據上的正確率
    accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
    
    # 初始化會話並開始訓練過程
    with tf.Session() as sess:
        tf.initialize_all_variables().run()
        # 準備驗證數據。通常在神經網絡的訓練過程當中會經過驗證數據來大體判斷中止的
        # 條件和評判訓練的效果
        validate_feed = {x:mnist.validation.images, y_:mnist.validation.labels}
        
        # 準備測試數據。在真實的應用中,這部分數據在訓練時是不可見的,這個數據只是做爲
        # 模型優劣的最後評判標準
        test_feed = {x:mnist.test.images, y_:mnist.test.labels}
        
        # 迭代地訓練神經網絡
        for i in range(TRAINING_STEPS):
            # 每1000輪輸出一次在驗證數據集上的測試結果
            if i % 1000 == 0:
                # 計算滑動平均模型在驗證數據上的結果。由於MNIST數據集比較小,因此一次
                # 能夠處理全部的驗證數據。爲了計算方便,本樣例程序沒有將驗證數據劃分爲更小的batch
                # 當神經網絡模型比較複雜或者驗證數據比較大時,太大的batch
                # 會致使計算時間過長甚至發生內存溢出的錯誤
                validate_acc = sess.run(accuracy, feed_dict=validate_feed)
                print("After %d training step(s), validation accuracy using average model is %g" % (i, validate_acc))
                
            # 產生這一輪使用的一個batch的訓練數據,並運行訓練過程
            xs, ys = mnist.train.next_batch(BATCH_SIZE)
            sess.run(train_op, feed_dict={x:xs, y_:ys})
        # 在訓練結束以後,在測試數據上檢測神經網絡模型的最終正確率
        test_acc = sess.run(accuracy, feed_dict=test_feed)
        print("After %d training step(s), test accuracy using average model is %g " % (TRAINING_STEPS, test_acc))
    
# 主程序入口
def main(argv=None):
    # 聲明處理MNIST數據集的類,這個類在初始化時會自動下載數據
    mnist = input_data.read_data_sets("E:/eclipseSpace/TensorflowTestPython/src/dataset", one_hot=True)
    train(mnist)
    
main()
 測試

相關文章
相關標籤/搜索