具體的連接:http://yann.lecun.com/exdb/mnist/算法
MNIST數據庫的手寫數字,可從這個頁面,有訓練集60000例,一個測試集10000個例子。 它是NIST可用的更大集合的子集。 數字已進行大小標準化,並以固定大小的圖像爲中心。數據庫
Four files are available on this site:學習
train-images-idx3-ubyte.gz: training set images (9912422 bytes)
train-labels-idx1-ubyte.gz: training set labels (28881 bytes)
t10k-images-idx3-ubyte.gz: test set images (1648877 bytes)
t10k-labels-idx1-ubyte.gz: test set labels (4542 bytes)測試
來自NIST的原始黑白(雙層)圖像被尺寸標準化以適合20×20像素盒,同時保持其縱橫比。 做爲歸一化算法使用的抗鋸齒技術的結果,所獲得的圖像包含灰度級。 經過計算像素的質心,而且平移圖像以便將該點定位在28×28場的中心,圖像在28×28圖像中居中。網站
MNIST數據庫由NIST的特殊數據庫3和特殊數據庫1構成,它包含手寫數字的二進制圖像。 NIST最初指定SD-3做爲他們的訓練集和SD-1做爲他們的測試集。 然而,SD-3比SD-1更乾淨,更容易識別。 其緣由能夠從如下事實中找到:SD-3是在人口普查局員工中收集的,而SD-1是在高中學生中收集的。 從學習實驗中得出合理的結論要求結果與整個樣本集中訓練集和測試的選擇無關。 所以,有必要經過混合NIST的數據集構建一個新的數據庫。this
MNIST訓練集由來自SD-3的30,000個模式和來自SD-1的30,000個模式組成。 咱們的測試集由來自SD-3的5,000個圖案和來自SD-1的5,000個圖案組成。 60,000模式訓練集包含約250名做家的例子。 咱們確保訓練集和測試集的做者集是不相交的。orm
SD-1包含58,527位數字圖像由500不一樣的做家寫。 與SD-3相反,在SD-3中,來自每一個寫入器的數據塊按順序出現,因此SD-1中的數據被加擾。 用於SD-1的寫入器身份是可用的,而且咱們使用該信息來解擾寫入器。 而後咱們將SD-1分紅兩部分:前250個做者寫入的字符進入咱們的新訓練集。 剩餘的250位做者被放置在咱們的測試集中。 所以,咱們有兩套,每套有近30,000個例子。 新的訓練集已經完成了足夠的例子從SD-3,從模式#0開始,使一整套60,000訓練模式。 相似地,新的測試集用從#35,000開始的SD-3實例完成,以製備具備60,000個測試圖案的完整集合。 在此網站上只有10,000個測試圖片(5,000個來自SD-1和5000個來自SD-3)的子集可用。 可提供完整的60,000個樣本培訓集。圖片
All the integers in the files are stored in the MSB first (high endian) format used by most non-Intel processors. Users of Intel processors and other low-endian machines must flip the bytes of the header.ip
There are 4 files:get
train-images-idx3-ubyte: training set images train-labels-idx1-ubyte: training set labels t10k-images-idx3-ubyte: test set images t10k-labels-idx1-ubyte: test set labels