筆記轉載於GitHub項目:https://github.com/NLP-LOVE/Introduction-NLPpython
前面已經講過了隱馬爾可夫模型、感知機、條件隨機場、樸素貝葉斯模型、支持向量機等傳統機器學習模型,同時,爲了將這些機器學習模型應用於 NLP,咱們掌握了特徵模板、TF-IDF、詞袋向量等特徵提取方法。而這些方法的侷限性表現爲以下:git
數據稀疏github
首先,傳統的機器學習方法不善於處理數據稀疏問題,這在天然語言處理領域顯得尤其突出,語言是離散的符號系統,每一個字符、單詞都是離散型隨機變量。咱們一般使用獨熱向量(one-hot)來將文本轉化爲向量表示,指的是隻有一個元素爲1,其餘元素所有爲 0 的二進制向量。例如:數組
祖國特徵: ["中國","美國","法國"] (這裏 N=3)網絡
中國 => 100機器學習
美國 => 010函數
法國 => 001性能
上面的祖國特徵只有 3 個還好,那若是是成千上萬個呢?就會有不少的 0 出現,表現爲數據的稀疏性。學習
特徵模板測試
語言具備高度的複合型。對於中文而言,偏旁部首構成漢字,漢字構成單詞,單詞構成短語,短語構成句子,句子構成段落,段落構成文章,隨着層級的遞進與顆粒度的增大,所表達的含義愈來愈複雜。
這樣的特徵模板一樣帶來數據稀疏的困擾: 一個特定單詞很常見,但兩個單詞的特定組合則不多見,三個單詞更是如此。許多特徵在訓練集中僅僅出現一次,僅僅出現一次的特徵在統計學上毫無心義。
偏差傳播
現實世界中的項目,每每涉及多個天然語言處理模塊的組合。好比在情感分析中,須要先進行分詞,而後進行詞性標註,根據詞性標註過濾掉一些不重要的詞,最後送入到樸素貝葉斯或者支持向量機等機器學習模塊進行分類預測。
這種流水線式的做業方式存在嚴重的偏差傳播問題,亦即前一個模塊產生的錯誤被輸入到下一個模塊中產生更大的錯誤,最終致使了整個系統的脆弱性。
爲了解決傳統機器學習與天然語言處理中的數據稀疏、人工特徵模板和偏差傳播等問題,人們將注意力轉向了另外一種機器學習潮流的研究--深度學習。
深度學習
深度學習(Deep Leaming, DL )屬於表示學習( Representation Learning )的範疇,指的是利用具備必定「深度」的模型來自動學習事物的向量表示(vectorial rpresenation)的一種學習範式。目前,深度學習所採用的模型主要是層數在一層以上的神經網絡。若是說在傳統機器學習中,事物的向量表示是利用手工特徵模板來提取稀疏的二進制向量的話,那麼在深度學習中,特徵模板被多層感知機替代。而一旦問題被表達爲向量,接下來的分類器同樣可使用單層感知機等模型,此刻深度學習與傳統手法毫無二致,異曲同工。因此說深度學習並不神祕,經過多層感知機提取向量纔是深度學習的精髓。
對於深度學習原理,在以前個人博客中已經介紹了,詳細請點擊:
用稠密向量解決數據稀疏
神經網絡的輸出爲樣本 x 的一個特徵向量 h。因爲咱們能夠自由控制神經網絡隱藏層的大小,因此在隱藏層獲得的 h 的長度也能夠控制。即使輸人層是詞表大小的獨熱向量、維度高達數十萬,隱藏層獲得的特徵向量依然能夠控制在很小的體積,好比100維。
這樣的 100 維向量是對詞語乃至其餘樣本的抽象表示,含有高度濃縮的信息。正由於這些向量位於同一個低維空間,咱們能夠很輕鬆地訓練分類器去學習單詞與單詞、文檔與文檔、圖片與圖片之間的類似度,甚至能夠訓練分類器來學習圖片與文檔之間的類似度。由表示學習帶來的這一切, 都是傳統機器學習方法難以實現的。
用多層網絡自動提取特徵表示
神經網絡兩層之間通常所有鏈接(全鏈接層),並不須要人們根據具體問題具體設計鏈接方式。這些隱藏層會根據損失函數的梯度自動調整多層感知機的權重矩陣,從而自動學習到隱陬層的特徵表示。
該過程徹底不須要人工干預,也就是說深度學習從理論上剝奪了特徵模板的用武之地。
端到端的設計
因爲神經網絡各層之間、各個神經網絡之間的「交流語言」爲向量,因此深度學習工程師能夠輕鬆地將多個神經網絡組合起來,造成一種端到端的設計。好比以前談到的情感分析案例中,一種最簡單的方案是將文檔的每一個字符的獨熱向量按順序輸入到神經網絡中,獲得整個文檔的特徵向量。而後將該特徵向量輸入到多項邏輯斯諦迴歸分類器中,就能夠分類出文檔的情感極性了。
整個過程既不須要中文分詞,也不須要停用詞過濾。由於神經網絡按照字符順序模擬了人類閱讀整篇文章的過程,已經獲取到了所有的輸人。
做爲鏈接傳統機器學習與深度學習的橋樑,詞向量一直是入門深度學習的第一站。詞向量的訓練方法有不少種,word2vec 是其中最著名的一種,還有 fastText、Glove、BERT和最近很流行的 XLNet 等。
word2vec 的原理在我博客裏已經講解過了,詳細介紹見:
訓練詞向量
瞭解了詞向量的基本原理以後,本節介紹如何調用 HanLP 中實現的詞向量模塊,該模塊接受的訓練語料格式爲以空格分詞的純文本格式,此處以 MSR 語料庫爲例。訓練代碼以下(自動下載語料庫):
from pyhanlp import * import zipfile import os from pyhanlp.static import download, remove_file, HANLP_DATA_PATH def test_data_path(): """ 獲取測試數據路徑,位於$root/data/test,根目錄由配置文件指定。 :return: """ data_path = os.path.join(HANLP_DATA_PATH, 'test') if not os.path.isdir(data_path): os.mkdir(data_path) return data_path ## 驗證是否存在語料庫,若是沒有自動下載 def ensure_data(data_name, data_url): root_path = test_data_path() dest_path = os.path.join(root_path, data_name) if os.path.exists(dest_path): return dest_path if data_url.endswith('.zip'): dest_path += '.zip' download(data_url, dest_path) if data_url.endswith('.zip'): with zipfile.ZipFile(dest_path, "r") as archive: archive.extractall(root_path) remove_file(dest_path) dest_path = dest_path[:-len('.zip')] return dest_path sighan05 = ensure_data('icwb2-data', 'http://sighan.cs.uchicago.edu/bakeoff2005/data/icwb2-data.zip') msr_train = os.path.join(sighan05, 'training', 'msr_training.utf8') ## =============================================== ## 如下開始 word2vec IOUtil = JClass('com.hankcs.hanlp.corpus.io.IOUtil') DocVectorModel = JClass('com.hankcs.hanlp.mining.word2vec.DocVectorModel') Word2VecTrainer = JClass('com.hankcs.hanlp.mining.word2vec.Word2VecTrainer') WordVectorModel = JClass('com.hankcs.hanlp.mining.word2vec.WordVectorModel') # 演示詞向量的訓練與應用 TRAIN_FILE_NAME = msr_train MODEL_FILE_NAME = os.path.join(test_data_path(), "word2vec.txt") def train_or_load_model(): if not IOUtil.isFileExisted(MODEL_FILE_NAME): if not IOUtil.isFileExisted(TRAIN_FILE_NAME): raise RuntimeError("語料不存在,請閱讀文檔瞭解語料獲取與格式:https://github.com/hankcs/HanLP/wiki/word2vec") trainerBuilder = Word2VecTrainer(); return trainerBuilder.train(TRAIN_FILE_NAME, MODEL_FILE_NAME) return load_model() def load_model(): return WordVectorModel(MODEL_FILE_NAME) wordVectorModel = train_or_load_model() # 調用函數訓練 word2vec
單詞語義類似度
有了詞向量以後,最基本的應用就是查找與給定單詞意義最相近的前 N 個單詞。
# 打印 單詞語義類似度 def print_nearest(word, model): print( "\n Word " "Cosine\n------------------------------------------------------------------------") for entry in model.nearest(word): print("%50s\t\t%f" % (entry.getKey(), entry.getValue())) print_nearest("上海", wordVectorModel) print_nearest("美麗", wordVectorModel) print_nearest("購買", wordVectorModel) print(wordVectorModel.similarity("上海", "廣州"))
結果以下:
Word Cosine ------------------------------------------------------------------------ 廣州 0.616240 天津 0.564681 西安 0.500929 撫順 0.456107 深圳 0.454190 浙江 0.446069 杭州 0.434974 江蘇 0.429291 廣東 0.407300 南京 0.404509 Word Cosine ------------------------------------------------------------------------ 裝點 0.652887 迷人 0.648911 恬靜 0.634712 絢麗 0.634530 憧憬 0.616118 蔥翠 0.612149 寧靜 0.599068 清新 0.592581 純真 0.589360 景色 0.585169 Word Cosine ------------------------------------------------------------------------ 購 0.521070 購得 0.500480 選購 0.483097 購置 0.480335 採購 0.469803 出售 0.469185 低收入 0.461131 分期付款 0.458573 代銷 0.456689 高價 0.456320 0.6162400245666504
其中 Cosine 一欄即爲兩個單詞之間的餘弦類似度,是一個介於 -1 和 1 之間的值。
詞語類比
將兩個詞語的詞向量相減,會產生一個新向量。經過與該向量作點積,能夠得出一個單詞與這兩個單詞的差值之間的類似度。在英文中,一個常見的例子是 king - man + woman = queen,也就是說詞向量的某些維度可能保存着當前詞語與皇室的關聯程度,另外一些維度可能保存着性別信息。
# param A: 作加法的詞語 # param B:作減法的詞語 # param C:作加法的詞語 # return:與(A-B+C) 語義距離最近的詞語及其類似度列表 print(wordVectorModel.analogy("日本", "自民黨", "共和黨"))
結果以下:
[美國=0.71801066, 德米雷爾=0.6803682, 美國國會=0.65392816, 布什=0.6503047, 華爾街日報=0.62903535, 國務卿=0.6280117, 輿論界=0.6277531, 白宮=0.6175594, 駁斥=0.6155998, 最惠國待遇=0.6062231]
短文本類似度
咱們將短文本中的全部詞向量求平均,就能將這段短文本表達爲一個稠密向量。因而咱們就能夠衡量任意兩端短文本之間鵝類似度了。
# 文檔向量 docVectorModel = DocVectorModel(wordVectorModel) documents = ["山東蘋果豐收", "農民在江蘇種水稻", "奧運會女排奪冠", "世界錦標賽勝出", "中國足球失敗", ] print(docVectorModel.similarity("山東蘋果豐收", "農民在江蘇種水稻")) print(docVectorModel.similarity("山東蘋果豐收", "世界錦標賽勝出")) print(docVectorModel.similarity(documents[0], documents[1])) print(docVectorModel.similarity(documents[0], documents[4]))
結果以下:
0.6743720769882202 0.018603254109621048 0.6743720769882202 -0.11777809262275696
相似的,能夠經過調用 nearest 接口查詢與給定單詞最類似的文檔
def print_nearest_document(document, documents, model): print_header(document) for entry in model.nearest(document): print("%50s\t\t%f" % (documents[entry.getKey()], entry.getValue())) def print_header(query): print( "\n%50s Cosine\n------------------------------------------------------------------------" % (query)) for i, d in enumerate(documents): docVectorModel.addDocument(i, documents[i]) print_nearest_document("體育", documents, docVectorModel) print_nearest_document("農業", documents, docVectorModel) print_nearest_document("我要看比賽", documents, docVectorModel) print_nearest_document("要不作飯吧", documents, docVectorModel)
結果以下:
體育 Cosine ------------------------------------------------------------------------ 世界錦標賽勝出 0.256444 奧運會女排奪冠 0.206812 中國足球失敗 0.165934 山東蘋果豐收 -0.037693 農民在江蘇種水稻 -0.047260 農業 Cosine ------------------------------------------------------------------------ 農民在江蘇種水稻 0.393115 山東蘋果豐收 0.259620 中國足球失敗 -0.008700 世界錦標賽勝出 -0.063113 奧運會女排奪冠 -0.137968 我要看比賽 Cosine ------------------------------------------------------------------------ 奧運會女排奪冠 0.531833 世界錦標賽勝出 0.357246 中國足球失敗 0.268507 山東蘋果豐收 0.000207 農民在江蘇種水稻 -0.022467 要不作飯吧 Cosine ------------------------------------------------------------------------ 農民在江蘇種水稻 0.232754 山東蘋果豐收 0.199197 奧運會女排奪冠 -0.166378 世界錦標賽勝出 -0.179484 中國足球失敗 -0.229308
Arc-Standard轉移系統
不一樣以前介紹的 Arc-Eager,該依存句法器基於 Arc-Standard 轉移系統,具體動做以下:
動做名稱 | 條件 | 解釋 |
---|---|---|
Shift | 隊列 β 非空 | 將隊首單詞 i 壓棧 |
LeftArc | 棧頂第二個單詞 | 將棧頂第二個單詞 i 的支配詞設爲棧頂單詞 j,即 i 做爲 j 的子節點 |
RightArc | 將棧頂單詞 j 的支配詞設爲棧頂第二個單詞 i,即 j做爲 i 的子節點 |
兩個轉移系統的邏輯不一樣,Arc-Eager 自頂而下地構建,而 Arc-Standard 要求右子樹自底而上地構建。雖然二者的複雜度都是 O(n),然而可能因爲 Arc-Standard 的簡潔性(轉移動做更少),它更受歡迎。
特徵提取
雖然神經網絡理論上能夠自動提取特徵,然而這篇論文做爲開山之做,依然未能脫離特徵模板。全部的特徵分爲三大類,即:
接着,句法分析器對當前的狀態提取上述三大類特徵,分別記做 w、t 和 l。不一樣於傳統方法,此處爲每一個特徵分配一個向量,因而獲得三個稠密向量 Xw、Xt 和 Xl。接着,將這三個向量拼接起來輸人到含有一個隱藏層的神經網絡,而且使用立方函數激活,亦即獲得隱藏層的特徵向量:
\[ h=\left(W_{1}\left(x^{w} \oplus x^{t} \oplus x^{l}\right)\right)^{3} \]
接着,對於 k 種標籤而言,Arc-Standard 一共存在 2k +1 種可能的轉移動做。此時只需將特徵向量 h 輸人到多元邏輯斯諦迴歸分類器(能夠看做神經網絡中的輸出層)中便可獲得轉移動做的機率分佈:
\[ p=softmax\left(W_{2} h\right) \]
最後選取 p 中最大機率所對應的轉移動做並執行便可。訓練時,採用 softmax 交叉熵損失函數而且以隨機梯度降低法優化。
實現代碼
from pyhanlp import * CoNLLSentence = JClass('com.hankcs.hanlp.corpus.dependency.CoNll.CoNLLSentence') CoNLLWord = JClass('com.hankcs.hanlp.corpus.dependency.CoNll.CoNLLWord') IDependencyParser = JClass('com.hankcs.hanlp.dependency.IDependencyParser') NeuralNetworkDependencyParser = JClass('com.hankcs.hanlp.dependency.nnparser.NeuralNetworkDependencyParser') parser = NeuralNetworkDependencyParser() sentence = parser.parse("徐先生還具體幫助他肯定了把畫雄鷹、松鼠和麻雀做爲主攻目標。") print(sentence) for word in sentence.iterator(): # 經過dir()能夠查看sentence的方法 print("%s --(%s)--> %s" % (word.LEMMA, word.DEPREL, word.HEAD.LEMMA)) print() # 也能夠直接拿到數組,任意順序或逆序遍歷 word_array = sentence.getWordArray() for word in word_array: print("%s --(%s)--> %s" % (word.LEMMA, word.DEPREL, word.HEAD.LEMMA)) print() # 還能夠直接遍歷子樹,從某棵子樹的某個節點一路遍歷到虛根 CoNLLWord = JClass("com.hankcs.hanlp.corpus.dependency.CoNll.CoNLLWord") head = word_array[12] while head.HEAD: head = head.HEAD if (head == CoNLLWord.ROOT): print(head.LEMMA) else: print("%s --(%s)--> " % (head.LEMMA, head.DEPREL))
依存關係詳細見 Chinese Dependency Treebank 1.0 的定義。
天然語言處理是一門突飛猛進的學科,在深度學習的時代更是如此。在學術界,即使是當前最早進的研究,在僅僅兩個月後很快就會被突破。本系列文章所提供的知識只不過是那些人門級的基礎知識而已。
神經網絡中兩個經常使用的特徵提取器: 用於時序數據的遞歸神經網絡 RNN 以及用於空間數據的卷積神經網絡 CNN。其中,RNN 在天然語言處理領域應用得最爲普遍。RNN 能夠處理變長的輸入,這正好適用於文本。特別是 RNN 家族中的 LSTM 網絡,能夠記憶大約 200 左右的單詞,爲建模句子中單詞之間的長距離依存創造了條件。然而,RNN 的缺陷在於難以並行化。若是須要捕捉文本中的 n 元語法的話,CNN 反而更勝一籌,而且在並行化方面具有自然優點。考慮到文檔通常較長, 許多文檔分類模型都使用 CNN 來構建。而句子相對較短,因此在句子顆粒度上進行的基礎 NLP 任務(中文分詞、詞性標註、命名實體識別和句法分析等)常常採用 RNN 來實現。
RNN 原理詳見:
CNN 原理詳見:
LSTM 原理詳見:
在詞嵌入的預訓練方面,word2vec 早已經是明日黃花。Facebook 經過將詞語內部的構詞信息引人 Skip-Gram 模型,獲得的 fastText 能夠爲任意詞語構造詞向量,而不要求該詞語必定得出如今語料庫中。可是,不管是 word2vec 仍是 fastText,都沒法解決一詞多義的問題。由於多義詞的消歧必須根據給定句子的上下文才能進行,這催生了一系列可以感知上下文的詞語表示方法。
其中,華盛頓大學提出了 ELMO,即一個在大規模純文本上訓練的雙向 LSTM 語言模型。ELMo 經過讀人上文來預測當前單詞的方式爲詞嵌人引入了上下文信息。Zalando Research 的研究人員則將這一方法應用到了字符級別,獲得了上下文字符串嵌入,其標註器取得了目前最早進的準確率。而 Google 的 BERT 模型則經過一種高效的雙向Transformer網絡同時對上文和下文建模,在許多NLP任務上取得了驚人的成績。
fastText 原理詳見:
ELMO 原理詳見:
BERT 原理詳見:
另外一些之前認爲很難的 NLP 任務,好比自動問答和文檔摘要等,在深度學習時代反而顯得很是簡單。許多 QA 任務歸結爲衡量問題和備選答案之間的文本類似度,這剛好是具有注意力機制的神經網絡所擅長的。而文檔摘要涉及的文本生成技術,又剛好是 RNN 語言模型所擅長的。在機器翻譯領域,Google 早已利用基於神經網絡的機器翻譯技術淘汰了基於短語的機器翻譯技術。目前,學術界的流行趨勢是利用 Transformer 和注意力機制提取特徵。
Transformer 原理詳見:
注意力機制 原理詳見:
總之,天然語言處理的將來圖景宏偉而廣闊。天然語言處理入門系列文章就做爲這條漫漫長路上的一塊墊腳石,但願給予讀者一些必備的人門概念。至於接下來的修行,前路漫漫,與君共勉。
HanLP何晗--《天然語言處理入門》筆記:
https://github.com/NLP-LOVE/Introduction-NLP
目錄
章節 |
---|
第 1 章:新手上路 |
第 2 章:詞典分詞 |
第 3 章:二元語法與中文分詞 |
第 4 章:隱馬爾可夫模型與序列標註 |
第 5 章:感知機分類與序列標註 |
第 6 章:條件隨機場與序列標註 |
第 7 章:詞性標註 |
第 8 章:命名實體識別 |
第 9 章:信息抽取 |
第 10 章:文本聚類 |
第 11 章:文本分類 |
第 12 章:依存句法分析 |
第 13 章:深度學習與天然語言處理 |