詞向量是計算機將天然語言符號化的重要手段,經過把詞或短語映射成低維的實數向量,以向量間的距離來衡量詞語的類似性,可做爲詞語特徵進行各項任務,在機器學習算法和天然語言處理中有着普遍應用。html
傳統的語言模型(eg. Word2vec)是基於分佈假設,使用無監督的方式,利用給定的語料庫中詞語的上下文共現信息,經過優化後的神經網絡模型,有效地將詞語轉換成向量的形式。web
詞向量通常是基於大規模的無結構文本語料訓練所得。無結構文本語料是指基於人工建立編輯,未經嚴格正確性驗證的文本語料,例如維基百科和新浪新聞。經過訓練這些語料獲得的詞向量,雖然在不少天然語言處理任務上都取得不錯的效果,但也顯示出其受限於原始語料的主題限制和不許確信息的問題。一方面,語料庫中的不少低頻詞得不到足夠的上下文信息以供訓練, 另外一方面因爲天然語言的表述是多樣的,語義上類似的詞不必定具備相同的上下文,因此獲得的詞向量並不能反映詞的內在聯繫。算法
前面提到基於上下文訓練獲得的詞向量具備一些不足,一個很天然的想法就是利用其它結構化的知識,做爲監督,來輔助詞向量的訓練。文本與知識庫融合,經過信息的共享,解決或改善各自的問題。在知識表示學習領域,通常是基於已有的三元組來訓練實體和關係向量,能夠利用實體的描述信息或者其餘文本內容來輔助學習,從而提高知識表示的性能,解決新實體的表示問題[1-3]。那麼如何將知識庫信息融合到詞向量的訓練過程呢?spring
HIT的同窗在14年提出在訓練語言模型cbow的同時引入外部知識[4],利用PPDB和WordNet中抽取的具備語義類似關係的詞對,做爲詞語的約束,使得對應的詞向量能學習到這種語義類似的信息。目標是最大化以下的似然函數,能夠認爲是一個簡化版的cbow,已知目標詞,來預測與其相關的其它詞w∈R_wi。網絡
微軟的研究員則嘗試將加入詞的形態信息(前綴後綴等)、句法(POS)和語義信息(同義詞等)到cbow中共同訓練,以得到更高質量的詞向量[5]。框架
NKU的同窗則基於 Skip-gram 模型,提出融合關係知識和分類知識的訓練框架 RC-NET[6]。機器學習
其中R-NET主要利用三元組信息,C-NET主要利用同義詞信息進行約束,目標函數分別以下:函數
USTC的同窗在15年提出SWE模型[7],該模型基於Skip-gram,將詞語間的關係(同義,上下位等)表示成不等式約束,目標函數是類似度s(wi,wk)與s(wi,wj)之差的hinge loss.性能
2016年IMS的同窗嘗試在Skip-gram模型基礎上加入詞彙對比信息共同訓練,提出dLCE模型[8],使得訓練獲得的詞向量能有效識別同義詞和反義詞。模型目標函數以下,前半部分是SGNS的目標函數,後半部分是同義詞反義詞約束。學習
上述提到的模型,嘗試基於Word2vec,以不一樣的方法融合不一樣的結構化信息,取得必定的效果。在調研過程,咱們對上述模型進行分析,發現各模型各有千秋,但大部分只適合特定的任務,如SWE模型在wordsim任務上有提高,但在anology任務上卻效果不佳,dLCE模型在同義反義識別任務上性能良好,但在wordsim任務中不一樣數據集卻表現差別大(WS353,MEN3000,SIMLEX999)。這彷佛是合理的,由於不一樣的模型的目標就是爲了解決不一樣任務上的問題,好比爲了解決同義反義識別問題,那經過模型使得同義詞距離更近,反義詞距離更遠,達到了預約目標,但沒法保證其它任務的性能。
那有沒有辦法更好的融合這些結構化知識呢?使得訓練獲得的詞向量更具備泛化能力,能有效識別同義詞反義詞,又能學習到上下文信息還有不一樣級別的語義信息。
咱們嘗試提出一個新的模型LRWE,具體描述見下一節。
本文地址:http://www.cnblogs.com/chenbjin/p/6900339.html
參考:
[1] Zhong H, Zhang J, Wang Z, et al. Aligning knowledge and text embeddings by entity descriptions. EMNLP 2015.
[2] Xie R, Liu Z, Jia J, et al. Representation Learning of Knowledge Graphs with Entity Descriptions. AAAI 2016.
[3] Wang Z, Zhang J, Feng J, et al. Knowledge Graph and Text Jointly Embedding. EMNLP 2014.
[4] Yu M, Dredze M. Improving Lexical Embeddings with Semantic Knowledge. ACL 2014.
[5] Bian J, Gao B, Liu T. Knowledge-Powered Deep Learning for Word Embedding. ECML PKDD 2014.
[6] Xu C, Bai Y, Bian J, et al. RC-NET: A General Framework for Incorporating Knowledge into Word Representations. ACM 2014.
[7] Liu Q, Jiang H, Wei S, et al. Learning Semantic Word Embeddings based on Ordinal Knowledge Constraints. ACL 2015.
[8] Nguyen K A, Walde S S I, Vu N T. Integrating Distributional Lexical Contrast into Word Embeddings for Antonym-Synonym Distinction. ACL 2016.