數據包連接:http://pan.baidu.com/s/1bp2egtL 密碼:lmkbgit
修改程序中文件地址:"E:/eclipseSpace/TensorflowTestPython/src/dataset",將數據包放在這個路徑下便可。算法
# 手寫識別數組
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("E:/eclipseSpace/TensorflowTestPython/src/dataset", one_hot=True)
batch_size = 100
xs, ys = mnist.train.next_batch(batch_size)
# 從train的集合中選取batch_size個訓練數據
print("X shape:", xs.shape)
print("Y shape:", ys.shape)網絡
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_dataapp
# MNIST數據集相關的常數
INPUT_NODE = 784 # 輸入層的節點數。對於MNIST數據集,這個就等於圖片的像素
OUTPUT_NODE = 10 # 輸出層的節點數。這個等於類別的數目。由於MNIST數據集中須要區分的是0-9這10個數字,因此這裏輸出層的節點數爲10eclipse
# 配置神經網絡的參數
LAYER1_NODE = 500 # 隱藏層節點數。這裏使用只有一個隱藏層的網絡結構做爲樣例
# 這個隱藏層有500個節點
BATCH_SIZE = 100 # 一個訓練batch中的訓練數據個數。數字越小時,訓練過程越接近,隨機梯度降低;數字越大時,訓練越接近梯度降低
LEARNING_RATE_BASE = 0.8 # 基礎的學習率
LEARNING_RATE_DECAY = 0.99 # 學習率的衰減率
REGULARIZATION_RATE = 0.0001 # 描述模型複雜度的正則化在損失函數中的係數
TRAINING_STEPS = 30000 # 訓練輪數
MOVING_AVERAGE_DECAY = 0.99 # 滑動平均衰減率函數
# 一個輔助函數,給定神經網絡的輸入和全部參數,計算神經網絡的前向傳播結果。
# 在這裏定義了一個使用ReLU激活函數的三層全鏈接神經網絡。經過加入隱藏層實現了多層網絡結構
# 經過ReLU激活函數實現了去線性化。在這個函數中也支持傳入用於計算參數的平均值的類
# 這樣方便在測試時使用滑動平均模型
def inference(input_tensor, avg_class, weights1, biases1, weights2, biases2):
# 當沒有提供滑動平均類時,直接使用參數當前的取值。
if avg_class == None:
# 計算隱藏層的前向傳播結果,這裏使用了ReLU激活函數
layer1 = tf.nn.relu(tf.matmul(input_tensor, weights1) + biases1)
# 計算輸出層的前向傳播結果。由於在計算損失函數時會一併計算softmax函數
# 因此這裏不須要加入激活函數。並且不加入softmax不會影響預測結果。由於預測時
# 使用的是不一樣類別對應節點輸出值的相對大小,有沒有softmax層對最後分類結果的計算沒有影響。
return tf.matmul(layer1, weights2) + biases2
else:
# 首先使用avg_class.average函數來計算得出變量的滑動平均值,
# 而後再計算相應的神經網絡前向傳播結果
layer1 = tf.nn.relu(tf.matmul(input_tensor, avg_class.average(weights1)) + avg_class.average(biases1))
return tf.matmul(layer1, avg_class.average(weights2)) + avg_class.average(biases2)學習
# 訓練模型的過程
def train(mnist):
x = tf.placeholder(tf.float32, [None, INPUT_NODE], name='x-input')
y_ = tf.placeholder(tf.float32, [None, OUTPUT_NODE], name='y-input')
# 生成隱藏層的參數
weights1 = tf.Variable(tf.truncated_normal([INPUT_NODE, LAYER1_NODE], stddev=0.1))
biases1 = tf.Variable(tf.constant(0.1, shape=[LAYER1_NODE]))
# 生成輸出層的參數
weights2 = tf.Variable(tf.truncated_normal([LAYER1_NODE, OUTPUT_NODE], stddev=0.1))
biases2 = tf.Variable(tf.constant(0.1, shape=[OUTPUT_NODE]))
# 計算在當前參數下神經網絡前向傳播的結果。這裏給出的用於計算滑動平均的類爲None
# 因此函數不會使用參數的滑動平均值
y = inference(x, None, weights1, biases1, weights2, biases2)
# 定義存儲訓練輪數的變量。這個變量不須要計算滑動平均值,因此這裏指定這個變量爲不可訓練的變量(trainable=False) .在使用Tensorflow訓練神經網絡時
# 通常會將表明訓練輪數的變量指定爲不可訓練的參數。
global_step = tf.Variable(0, trainable=False)
# 給定滑動平均衰減率和訓練輪數的變量,初始化滑動平均類
# 給定訓練輪數的變量能夠加快訓練早期變量的更新速度
variable_averages = tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECAY, global_step)
# 在全部表明神經網絡參數的變量上使用滑動平均。其餘輔助變量(好比g lobal_step)就不須要了
# tf.variables返回的就是圖上集合
# GraphKeys.TRAINABLE_VARIABLES中的元素。這個集合的元素就是全部沒有指定你trainable=False的參數
variable_averages_op = variable_averages.apply(tf.trainable_variables())
# 計算使用了滑動平均以後的前向傳播結果。
# 須要明確調用average函數
average_y = inference(x, variable_averages, weights1, biases1, weights2, biases2)
# 計算交叉熵做爲刻畫預測值和真實值之間差距的損失函數。這裏使用了TensorFlow中提供的sparse_softmax_cross_entropy_with_logits函數來計算交叉熵
# 當分類問題只有一個正確答案時,可使用這個函數來加速交叉熵的計算。
# MNIST問題的圖片中只包含了0-9中的一個數字,因此可使用這個函數來計算交叉熵損失
# 這個函數的第一個參數是神經網絡不包括softmax層的前向傳播結果,第二個是訓練數據的正確答案。
# 由於標準答案是一個長度爲10的一維數組,而該函數須要提供一個正確答案的數字,因此須要使用tf.argmax函數來獲得正確答案對應的類別編號
cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y, labels=tf.argmax(y_, 1))
# 計算在當前batch中全部樣類的交叉熵平均值
cross_entropy_mean = tf.reduce_mean(cross_entropy)
# 計算L2正則化損失函數
regularizer = tf.contrib.layers.l2_regularizer(REGULARIZATION_RATE)
# 計算模型的正則化損失。通常只計算神經網絡邊上權重的正則化損失,而不使用偏置項
regularization = regularizer(weights1) + regularizer(weights2)
# 總損失等於交叉熵損失和正則化損失的和
loss = cross_entropy_mean + regularization
# 設置指數衰減的學習率
learning_rate = tf.train.exponential_decay(
LEARNING_RATE_BASE, # 基礎的學習率,隨着迭代的進行,更新變量時使用的學習率在這個基礎上遞減
global_step, # 當前迭代的輪數
mnist.train._num_examples / BATCH_SIZE, # 過完全部的訓練數據須要的迭代次數
LEARNING_RATE_DECAY) # 學習率衰減速度
# 使用tf.train.GradientDescentOptimizer優化算法來優化損失函數。這裏損失函數包含了
# 交叉熵損失和L2正則化損失
train_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss, global_step=global_step)
# 在訓練神經網絡模型時,每過一遍數據既須要經過反向傳播來更新神經網絡中的參數
# 又要更新每個參數的滑動平均值。爲了一次完成多個操做,Tensorflow提供了
# tf.control_dependencies和tf.group兩種機制下面兩行程序和
# train_op=tf.group(train_step,variables_averages_op)是等價的
with tf.control_dependencies([train_step, variable_averages_op]):
train_op = tf.no_op(name='train')
# 檢驗使用了滑動平均模型的神經網絡前向傳播結果是否正確。tf.argmax(average_y,1)
# 計算每個樣例的預測答案。其中average_y是一個batch_size*10的二維數組,
# 每一行表示一個樣例的前向傳播結果。tf.argmax的第二個參數"1"表示選取最大的操做僅在第一個維度
# 中進行,也就是說,只在每一行選取最大值對應的下標。因而獲得的結果是一個長度爲
# batch的一維數組,這個一維數組中的值就表示了每個樣例對應的數字識別結果。
# tf.equal判斷兩個張量的每一維是否相等,若是相等返回True,不然返回False
correct_prediction = tf.equal(tf.arg_max(average_y, 1), tf.arg_max(y_, 1))
# 這個運算首先將一個布爾型的數值轉換爲實數型,而後計算平均值。這個平均值就是模型在
# 這一組數據上的正確率
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
# 初始化會話並開始訓練過程
with tf.Session() as sess:
tf.initialize_all_variables().run()
# 準備驗證數據。通常在神經網絡的訓練過程當中會經過驗證數據來大體判斷中止的
# 條件和評判訓練的效果
validate_feed = {x:mnist.validation.images, y_:mnist.validation.labels}
# 準備測試數據。在真實的應用中,這部分數據在訓練時是不可見的,這個數據只是做爲
# 模型優劣的最後評判標準
test_feed = {x:mnist.test.images, y_:mnist.test.labels}
# 迭代地訓練神經網絡
for i in range(TRAINING_STEPS):
# 每1000輪輸出一次在驗證數據集上的測試結果
if i % 1000 == 0:
# 計算滑動平均模型在驗證數據上的結果。由於MNIST數據集比較小,因此一次
# 能夠處理全部的驗證數據。爲了計算方便,本樣例程序沒有將驗證數據劃分爲更小的batch
# 當神經網絡模型比較複雜或者驗證數據比較大時,太大的batch
# 會致使計算時間過長甚至發生內存溢出的錯誤
validate_acc = sess.run(accuracy, feed_dict=validate_feed)
print("After %d training step(s), validation accuracy using average model is %g" % (i, validate_acc))
# 產生這一輪使用的一個batch的訓練數據,並運行訓練過程
xs, ys = mnist.train.next_batch(BATCH_SIZE)
sess.run(train_op, feed_dict={x:xs, y_:ys})
# 在訓練結束以後,在測試數據上檢測神經網絡模型的最終正確率
test_acc = sess.run(accuracy, feed_dict=test_feed)
print("After %d training step(s), test accuracy using average model is %g " % (TRAINING_STEPS, test_acc))
# 主程序入口
def main(argv=None):
# 聲明處理MNIST數據集的類,這個類在初始化時會自動下載數據
mnist = input_data.read_data_sets("E:/eclipseSpace/TensorflowTestPython/src/dataset", one_hot=True)
train(mnist)
main()
測試