TensorFlow教程03:針對機器學習初學者的MNIST實驗——迴歸的實現、訓練和模型評估
實現迴歸模型python
爲了用python實現高效的數值計算,咱們一般會使用函數庫,好比NumPy,會把相似矩陣乘法這樣的複雜運算使用其餘外部語言實現。不幸的是,從外部計算切換回Python的每個操做,仍然是一個很大的開銷。若是你用GPU來進行外部計算,這樣的開銷會更大。用分佈式的計算方式,也會花費更多的資源用來傳輸數據。算法
TensorFlow也把複雜的計算放在python以外完成,可是爲了不前面說的那些開銷,它作了進一步完善。Tensorflow不單獨地運行單一的複雜計算,而是讓咱們能夠先用圖描述一系列可交互的計算操做,而後所有一塊兒在Python以外運行。(這樣相似的運行方式,能夠在很多的機器學習庫中看到。)機器學習
使用TensorFlow以前,首先導入它:分佈式
import tensorflow as tf
咱們經過操做符號變量來描述這些可交互的操做單元,能夠用下面的方式建立一個:函數
x = tf.placeholder("float", [None, 784])
x不是一個特定的值,而是一個佔位符placeholder,咱們在TensorFlow運行計算時輸入這個值。咱們但願可以輸入任意數量的MNIST圖像,每一張圖展平成784維的向量。咱們用2維的浮點數張量來表示這些圖,這個張量的形狀是[None,784 ]。(這裏的None表示此張量的第一個維度能夠是任何長度的。)性能
咱們的模型也須要權重值和偏置量,固然咱們能夠把它們當作是另外的輸入(使用佔位符),但TensorFlow有一個更好的方法來表示它們:Variable 。 一個Variable表明一個可修改的張量,存在在TensorFlow的用於描述交互性操做的圖中。它們能夠用於計算輸入值,也能夠在計算中被修改。對於各類機器學習應用,通常都會有模型參數,能夠用Variable表示。學習
W = tf.Variable(tf.zeros([784,10])) b = tf.Variable(tf.zeros([10]))
咱們賦予tf.Variable不一樣的初值來建立不一樣的Variable:在這裏,咱們都用全爲零的張量來初始化W和b。由於咱們要學習W和b的值,它們的初值能夠隨意設置。測試
注意,W的維度是[784,10],由於咱們想要用784維的圖片向量乘以它以獲得一個10維的證據值向量,每一位對應不一樣數字類。b的形狀是[10],因此咱們能夠直接把它加到輸出上面。優化
如今,咱們能夠實現咱們的模型啦。只須要一行代碼!編碼
y = tf.nn.softmax(tf.matmul(x,W) + b)
首先,咱們用tf.matmul(x,W)表示x乘以W,對應以前等式裏面的,這裏x是一個2維張量擁有多個輸入。而後再加上b,把和輸入到tf.nn.softmax函數裏面。
至此,咱們先用了幾行簡短的代碼來設置變量,而後只用了一行代碼來定義咱們的模型。TensorFlow不只僅可使softmax迴歸模型計算變得特別簡單,它也用這種很是靈活的方式來描述其餘各類數值計算,從機器學習模型對物理學模擬仿真模型。一旦被定義好以後,咱們的模型就能夠在不一樣的設備上運行:計算機的CPU,GPU,甚至是手機!
訓練模型
爲了訓練咱們的模型,咱們首先須要定義一個指標來評估這個模型是好的。其實,在機器學習,咱們一般定義指標來表示一個模型是壞的,這個指標稱爲成本(cost)或損失(loss),而後儘可能最小化這個指標。可是,這兩種方式是相同的。
一個很是常見的,很是漂亮的成本函數是「交叉熵」(cross-entropy)。交叉熵產生於信息論裏面的信息壓縮編碼技術,可是它後來演變成爲從博弈論到機器學習等其餘領域裏的重要技術手段。它的定義以下:
y 是咱們預測的機率分佈, y' 是實際的分佈(咱們輸入的one-hot vector)。比較粗糙的理解是,交叉熵是用來衡量咱們的預測用於描述真相的低效性。更詳細的關於交叉熵的解釋超出本教程的範疇,可是你頗有必要好好理解它。
爲了計算交叉熵,咱們首先須要添加一個新的佔位符用於輸入正確值:
y_ = tf.placeholder("float", [None,10])
而後咱們能夠計算交叉熵:
cross_entropy = -tf.reduce_sum(y_*tf.log(y))
首先,用 tf.log 計算 y 的每一個元素的對數。接下來,咱們把 y_ 的每個元素和 tf.log(y) 的對應元素相乘。最後,用 tf.reduce_sum 計算張量的全部元素的總和。(注意,這裏的交叉熵不只僅用來衡量單一的一對預測和真實值,而是全部100幅圖片的交叉熵的總和。對於100個數據點的預測表現比單一數據點的表現能更好地描述咱們的模型的性能。
如今咱們知道咱們須要咱們的模型作什麼啦,用TensorFlow來訓練它是很是容易的。由於TensorFlow擁有一張描述你各個計算單元的圖,它能夠自動地使用反向傳播算法(backpropagation algorithm)來有效地肯定你的變量是如何影響你想要最小化的那個成本值的。而後,TensorFlow會用你選擇的優化算法來不斷地修改變量以下降成本。
train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)
在這裏,咱們要求TensorFlow用梯度降低算法(gradient descent algorithm)以0.01的學習速率最小化交叉熵。梯度降低算法(gradient descent algorithm)是一個簡單的學習過程,TensorFlow只需將每一個變量一點點地往使成本不斷下降的方向移動。固然TensorFlow也提供了其餘許多優化算法:只要簡單地調整一行代碼就可使用其餘的算法。
TensorFlow在這裏實際上所作的是,它會在後臺給描述你的計算的那張圖裏面增長一系列新的計算操做單元用於實現反向傳播算法和梯度降低算法。而後,它返回給你的只是一個單一的操做,當運行這個操做時,它用梯度降低算法訓練你的模型,微調你的變量,不斷減小成本。
如今,咱們已經設置好了咱們的模型。在運行計算以前,咱們須要添加一個操做來初始化咱們建立的變量:
init = tf.initialize_all_variables()
如今咱們能夠在一個Session裏面啓動咱們的模型,而且初始化變量:
sess = tf.Session() sess.run(init)
而後開始訓練模型,這裏咱們讓模型循環訓練1000次!
for i in range(1000): batch_xs, batch_ys = mnist.train.next_batch(100) sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})
該循環的每一個步驟中,咱們都會隨機抓取訓練數據中的100個批處理數據點,而後咱們用這些數據點做爲參數替換以前的佔位符來運行train_step。
使用一小部分的隨機數據來進行訓練被稱爲隨機訓練(stochastic training)- 在這裏更確切的說是隨機梯度降低訓練。在理想狀況下,咱們但願用咱們全部的數據來進行每一步的訓練,由於這能給咱們更好的訓練結果,但顯然這須要很大的計算開銷。因此,每一次訓練咱們可使用不一樣的數據子集,這樣作既能夠減小計算開銷,又能夠最大化地學習到數據集的整體特性。
評估咱們的模型
那麼咱們的模型性能如何呢?
首先讓咱們找出那些預測正確的標籤。tf.argmax 是一個很是有用的函數,它能給出某個tensor對象在某一維上的其數據最大值所在的索引值。因爲標籤向量是由0,1組成,所以最大值1所在的索引位置就是類別標籤,好比tf.argmax(y,1)返回的是模型對於任一輸入x預測到的標籤值,而 tf.argmax(y_,1) 表明正確的標籤,咱們能夠用 tf.equal 來檢測咱們的預測是否真實標籤匹配(索引位置同樣表示匹配)。
correct_prediction = tf.equal(tf.argmax(y,1), tf.argmax(y_,1))
這行代碼會給咱們一組布爾值。爲了肯定正確預測項的比例,咱們能夠把布爾值轉換成浮點數,而後取平均值。例如,[True, False, True, True] 會變成 [1,0,1,1] ,取平均值後獲得 0.75.
accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
最後,咱們計算所學習到的模型在測試數據集上面的正確率。
print sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels})
這個最終結果值應該大約是91%。
這個結果好嗎?嗯,並不太好。事實上,這個結果是不好的。這是由於咱們僅僅使用了一個很是簡單的模型。不過,作一些小小的改進,咱們就能夠獲得97%的正確率。最好的模型甚至能夠得到超過99.7%的準確率!(想了解更多信息,能夠看看這個關於各類模型的性能對比列表。)
比結果更重要的是,咱們從這個模型中學習到的設計思想。不過,若是你仍然對這裏的結果有點失望,能夠查看下一個教程,在那裏你能夠學習如何用TensorFlow構建更加複雜的模型以得到更好的性能!