人工神經網絡,借鑑生物神經網絡工做原理數學模型。git
由n個輸入特徵得出與輸入特徵幾乎相同的n個結果,訓練隱藏層獲得意想不到信息。信息檢索領域,模型訓練合理排序模型,輸入特徵,文檔質量、文檔點擊歷史、文檔前鏈數目、文檔錨文本信息,爲找特徵隱藏信息,隱藏層神經元數目設置少於輸入特徵數目,經大量樣本訓練能還原原始特徵模型,至關用少於輸入特徵數目信息還原所有特徵,壓縮,可發現某些特徵之間存在隱含相關性,或者有某種特殊關係。讓隱藏層神經元數目多餘輸入特徵數目,訓練模型可展現特徵之間某種細節關聯。輸出輸入一致,自編碼算法。
人工神經網絡模型,多層神經元結構創建,每一層抽象一種思惟過程,經多層思考,得出結論。神經網絡每一層有每一層專作事情,每一層神經元添加特殊約束條件。多層提取特定特徵作機器學習是深度學習。
卷積,在必定範圍內作平移並求平均值。卷積積分公式,對τ積分,對固定x,找x附近全部變量,求兩個函數乘積,並求和。神經網絡裏面,每一個神經元計算輸出卷積公式,神經網絡每一層輸出一種更高級特徵。天然語言,較近上下文詞語之間存在必定相關性,標點、特殊詞等分隔使、傳統天然語言處理脫離詞與詞之間關聯,丟失部分重要信息,利用卷積神經網絡能夠作多元(n-gram)計算,不損失天然語言臨近詞相關性信息。github
自動問答系統深度學習應用RNN,利用時序建模。算法
卷積神經網絡(Convolutional Neural Network,CNN),二維離散卷積運算和人工神經網絡結合深度神經網絡。自動提取特徵。
手寫數字識別。http://yann.lecun.com/exdb/mnist/手寫數據集,文件是二進制像素單位保存幾萬張圖片文件,https://github.com/warmheartli/ChatBotCourse。編程
多層卷積網絡,第一層一個卷積和一個max pooling,卷積運算「視野」5×5像素範圍,卷積使用1步長、0邊距模板(保證輸入輸出同一個大小),1個輸入通道(圖片灰度,單色),32個輸出通道(32個特徵)。每張圖片28×28像素,第一次卷積輸出28×28大小。max pooling採用2×2大小模板,池化後輸出尺寸14×14,一共有32個通道,一張圖片輸出是14×14×32=6272像素。第二層一個卷積和一個max pooling,輸入通道32個(對應第一層32個特徵),輸出通道64個(輸出64個特徵),輸入每張大小14×14,卷積層輸出14×14,通過max pooling,輸出大小7×7,輸出像素7×7×64=3136。第三層一個密集鏈接層,一個有1024個神經元全鏈接層,第二層輸出7×7×64個值做1024個神經元輸入。神經元激活函數爲ReLu函數,平滑版Softplus g(x)=log(1+e^x))。最終輸出層,第三層1024個輸出爲輸入,設計一個softmax層,輸出10個機率值。微信
# coding:utf-8
import sys
import importlib
importlib.reload(sys)
from tensorflow.examples.tutorials.mnist import input_data
import tensorflow as tf網絡
flags = tf.app.flags
FLAGS = flags.FLAGS
flags.DEFINE_string('data_dir', './', 'Directory for storing data')
mnist = input_data.read_data_sets(FLAGS.data_dir, one_hot=True)
# 初始化生成隨機的權重(變量),避免神經元輸出恆爲0
def weight_variable(shape):
# 以正態分佈生成隨機值
initial = tf.truncated_normal(shape, stddev=0.1)
return tf.Variable(initial)
# 初始化生成隨機的偏置項(常量),避免神經元輸出恆爲0
def bias_variable(shape):
initial = tf.constant(0.1, shape=shape)
return tf.Variable(initial)
# 卷積採用1步長,0邊距,保證輸入輸出大小相同
def conv2d(x, W):
return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')
# 池化採用2×2模板
def max_pool_2x2(x):
return tf.nn.max_pool(x, ksize=[1, 2, 2, 1],
strides=[1, 2, 2, 1], padding='SAME')
# 28*28=784
x = tf.placeholder(tf.float32, [None, 784])
# 輸出類別共10個:0-9
y_ = tf.placeholder("float", [None,10])
# 第一層卷積權重,視野是5*5,輸入通道1個,輸出通道32個
W_conv1 = weight_variable([5, 5, 1, 32])
# 第一層卷積偏置項有32個
b_conv1 = bias_variable([32])
# 把x變成4d向量,第二維和第三維是圖像尺寸,第四維是顏色通道數1
x_image = tf.reshape(x, [-1,28,28,1])
h_conv1 = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1)
h_pool1 = max_pool_2x2(h_conv1)
# 第二層卷積權重,視野是5*5,輸入通道32個,輸出通道64個
W_conv2 = weight_variable([5, 5, 32, 64])
# 第二層卷積偏置項有64個
b_conv2 = bias_variable([64])
h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)
h_pool2 = max_pool_2x2(h_conv2)
# 第二層池化後尺寸編程7*7,第三層是全鏈接,輸入是64個通道,輸出是1024個神經元
W_fc1 = weight_variable([7 * 7 * 64, 1024])
# 第三層全鏈接偏置項有1024個
b_fc1 = bias_variable([1024])
h_pool2_flat = tf.reshape(h_pool2, [-1, 7*7*64])
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)
# 按float作dropout,以減小過擬合
keep_prob = tf.placeholder("float")
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)
# 最後的softmax層生成10種分類
W_fc2 = weight_variable([1024, 10])
b_fc2 = bias_variable([10])
y_conv=tf.nn.softmax(tf.matmul(h_fc1_drop, W_fc2) + b_fc2)
cross_entropy = -tf.reduce_sum(y_*tf.log(y_conv))
# Adam優化器來作梯度最速降低
train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
correct_prediction = tf.equal(tf.argmax(y_conv,1), tf.argmax(y_,1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
sess = tf.InteractiveSession()
sess.run(tf.global_variables_initializer())
for i in range(20000):
batch = mnist.train.next_batch(50)
if i%100 == 0:
train_accuracy = accuracy.eval(feed_dict={
x:batch[0], y_: batch[1], keep_prob: 1.0})
print("step %d, training accuracy %g"%(i, train_accuracy))
train_step.run(feed_dict={x: batch[0], y_: batch[1], keep_prob: 0.5})
print("test accuracy %g"%accuracy.eval(feed_dict={
x: mnist.test.images, y_: mnist.test.labels, keep_prob: 1.0}))app
詞向量。天然語言須要數學化才能被計算機認識計算。爲每一個詞分配一個編號,不能表示詞與詞關係。每個詞對應一個向量,詞義相近詞,詞向量距離越近(歐氏距離、夾角餘弦)。詞向量,維度通常較低,通常是50維或100維,可避免維度災難,更容易深度學習。
語言模型表達已知前n-1個詞前提下,預測第n個詞的機率。詞向量訓練,無監督學習,沒有標註數據,給n篇文章,可訓練出詞向量。基於三層神經網絡構建n-gram語言模型。最下面w是詞,上面C(w)是詞向量,詞向量一層是神經網絡輸入層(第一層),輸入層是一個(n-1)×m矩陣,n-1是詞向量數目,m是詞向量維度。第二層(隱藏層)是普通神經網絡,H爲權重,tanh爲激活函數。第三層(輸出層)有|V|個節點,|V|是詞表大小,輸出U爲權重,softmax做激活函數實現歸一化,最終輸出某個詞機率。增長一個從輸入層到輸出層直連邊(線性變換),可提高模型效果,變換矩陣設爲W。假設C(w)是輸入x,y計算公式是y = b + Wx + Utanh(d+Hx)。模型訓練變量C、H、U、W。梯度降低法訓練得出C是生成詞向量所用矩陣,C(w)是所需詞向量。
詞向量應用。找同義詞。案例google word2vec工具,訓練好詞向量,指定一個詞,返回cos距離最相近詞並排序。詞性標註和語義角色標註任務。詞向量做神經網絡輸入層,經過前饋網絡和卷積網絡完成。句法分析和情感分析任務。詞向量做遞歸神經網絡輸入。命名實體識別和短語識別。詞向量做擴展特徵使用。詞向量 C(king)-C(queue)≈C(man)-C(woman),減法是向量逐維相減,C(king)-C(man)+C(woman)最相近向量是C(queue),語義空間線性關係。機器學習
詞向量是深度學習應用NLP根基,word2vec是使用最普遍最簡單有效詞向量訓練工具。分佈式
一個記憶單元識別一個事物,叫localist representation。幾個記憶單元分別識別基礎信息,經過這幾個記憶單元輸出,表示全部事物,叫distributed representation,詞向量。localist representation 稀疏表達,one hot vector,每一類型用向量一維來表示。distributed representation 分佈式表達,增長表達只須要增長一個或不多特徵維度。
word embedding,詞嵌入,範疇論,morphism(態射),態射表示兩個數學結構中保持結構過程抽象,一個域和另外一個域之間關係。範疇論中嵌入(態射)保持結構,word embedding表示「降維」嵌入,經過降維避免維度災難,下降計算複雜度,更易於深度學習應用。ide
word2vec本質,經過distributed representation表達方式表示詞,經過降維word embedding減小計算量。
word2vec訓練神經機率語言模型。word2vec CBOW和Skip-gram模型。CBOW模型。Continuous Bag-of-Words Model,已知當前詞上下文預測當前詞。CBOW模型神經網絡結構,輸入層,詞w上下文2c個詞的詞向量。投影層,輸入層2c個向量作求和累加。輸出層,霍夫曼樹,葉子節點是語料出現過詞,權重是出現次數。神經網絡模型首尾相接改爲求和累加,減小維度。去掉隱藏層,減小計算量。輸出層softmax歸一化運算改爲霍夫曼樹。
基於霍夫曼樹Hierarchical Softmax技術。基於訓練語料獲得每個可能w機率。霍夫曼樹,非根節點θ表示待訓練參數向量,當投射層產出新向量x,邏輯迴歸公式 σ(xTθ) = 1/(1+e^(-xTθ)),可得每一層被分到左節點(1)仍是右節點(0)機率p(d|x,θ) = 1-σ(xTθ)和p(d|x,θ) = σ(xTθ)。以對數似然函數爲優化目標,假設兩個求和符號部分記做L(w, j),θ更新公式,x梯度公式,x多個v累加,word2vec中v更新方法。Skip-gram模型,Continuous Skip-gram Model,已知當前詞狀況預測上下文。Skip-gram模型神經網絡結構。輸入層,w詞向量v(w)。投影層,v(w)。輸出層,霍夫曼樹。θ和v(w)更新公式,符號名從x改v(w)。
word2vec,下載源碼,https://github.com/warmheartli/ChatBotCourse/tree/master/word2vec),執行make編譯(mac系統代碼全部#include <malloc.h>替換成#include <sys/malloc.h>)。編譯生成word2vec、word2phrase、word-analogy、distance、compute-accuracy二進制文件。訓練,語料,已切好詞(空格分隔)文本。執行 ./word2vec -train train.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -thread 12 -binary 1 。生成vectors.bin文件,訓練好詞向量二進制文件,求近義詞了,執行 ./distance vectors.bin 。
參考資料:
《Python 天然語言處理》
http://www.shareditor.com/blogshow?blogId=92
http://www.shareditor.com/blogshow?blogId=97
http://www.shareditor.com/blogshow?blogId=99
http://www.shareditor.com/blogshow?blogId=100
歡迎推薦上海機器學習工做機會,個人微信:qingxingfengzi