做者|Mate Pocs
編譯|VK
來源|Towards Data Sciencepython
Word2vec絕對是我在天然語言處理研究中遇到的最有趣的概念。想象一下,有一種算法能夠成功地模擬理解單詞的含義及其在語言中的功能,它能夠在不一樣的主題內來衡量單詞之間的接近程度。git
我認爲可視化地表示word2vec向量會頗有趣:本質上,咱們能夠獲取國家或城市的向量,應用主成分分析來減小維度,並將它們放在二維圖表上。而後,咱們能夠觀察可視化的結果。github
在本文中,咱們將:算法
word2vec的原始研究論文和預訓練模型來自2013年,考慮到NLP文獻的擴展速度,目前它是老技術。較新的方法包括GloVe(更快,能夠在較小的語料庫上訓練)和fastText(可以處理字符級的n-gram)。api
天然語言處理的核心概念之一是如何量化單詞和表達式,以便可以在模型環境中使用它們。語言元素到數值表示的這種映射稱爲詞嵌入。網絡
Word2vec是一個詞嵌入過程。這個概念相對簡單:經過一個句子一個句子地在語料庫中循環去擬合一個模型,根據預先定義的窗口中的相鄰單詞預測當前單詞。app
爲此,它使用了一個神經網絡,但實際上最後咱們並不使用預測的結果。一旦模型被保存,咱們只保存隱藏層的權重。在咱們將要使用的原始模型中,有300個權重,所以每一個單詞都由一個300維向量表示。機器學習
請注意,兩個單詞沒必要彼此接近的地方纔被認爲是類似的。若是兩個詞歷來沒有出如今同一個句子中,但它們一般被相同的包圍,那麼能夠確定它們有類似的意思。函數
word2vec中有兩種建模方法:skip-gram和continuous bag of words,這兩種方法都有各自的優勢和對某些超參數的敏感性……可是你知道嗎?咱們將不擬合咱們本身的模型,因此我不會花時間在它上面。學習
固然,你獲得的詞向量取決於你訓練模型的語料庫。通常來講,你確實須要一個龐大的語料庫,有維基百科上訓練過的版本,或者來自不一樣來源的新聞文章。咱們將要使用的結果是在Google新聞上訓練出來的。
首先,你須要下載預訓練word2vec向量。你能夠從各類各樣的模型中進行選擇,這些模型是針對不一樣類型的文檔進行訓練的。
我用的是最初的模型,在Google新聞上受過訓練,你能夠從不少來源下載,只需搜索「Google News vectors negative 300」。或者, 在這裏下載:https://github.com/mmihaltz/w...。
注意,這個文件是1.66gb,但它包含了30億字的300維表示。
當談到在Python中使用word2vec時,再一次,你有不少包可供選擇,咱們將使用gensim庫。假設文件保存在word2vec_pretrained文件夾中,能夠用Python加載,代碼以下所示:
from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format(\ './word2vec_pretrained/GoogleNews-vectors-negative300.bin.gz', \ binary = True, limit = 1000000)
limit參數定義了要導入的單詞數,100萬對於我來講已經足夠了。
如今咱們已經有了word2vec向量,咱們能夠查看它的一些相關有趣的用法。
首先,你能夠實際檢查任何單詞的向量表示:
word_vectors['dog']
結果,正如咱們預期的,是一個300維的向量,而且這個向量很難解釋。咱們經過對這些向量的加和減來計算新向量,而後計算餘弦類似度來找到最接近的匹配詞。
你可使用most_similar函數找到同義詞,topn參數定義要列出的單詞數:
word_vectors.most_similar(positive = ['nice'], topn = 5)
結果
[('good', 0.6836092472076416), ('lovely', 0.6676311492919922), ('neat', 0.6616737246513367), ('fantastic', 0.6569241285324097), ('wonderful', 0.6561347246170044)]
如今,你可能認爲用相似的方法,你也能夠找到反義詞,你可能認爲只須要把「nice」這個詞做爲negative
輸入。但結果倒是
[('J.Gordon_###-###', 0.38660115003585815), ('M.Kenseth_###-###', 0.35581791400909424), ('D.Earnhardt_Jr._###-###', 0.34227001667022705), ('G.Biffle_###-###', 0.3420777916908264), ('HuMax_TAC_TM', 0.3141660690307617)]
這些詞實際上表示離「nice」這個詞最遠的詞。
使用doesnt_match
函數能夠找出異常詞:
word_vectors.doesnt_match( ['Hitler', 'Churchill', 'Stalin', 'Beethoven'])
返回Beethoven
。我想這很方便。
最後,讓咱們看看一些操做的例子,這些操做經過賦予算法一種虛假的智能感而出名。若是咱們想合併father和woman這兩個詞的向量,而且減去man這個詞的向量,代碼以下
word_vectors.most_similar( positive = ['father', 'woman'], negative = ['man'], topn = 1)
咱們獲得:
[('mother', 0.8462507128715515)]
腦子先轉一轉,想象一下咱們只有兩個維度:親子關係和性別。「女人」這個詞能夠用這個向量來表示:[0,1],「男人」是[0,-1],「父親」是[1,-1],「母親」是[1,1]。如今,若是咱們作一樣的運算,咱們獲得一樣的結果。固然,區別在於咱們有300個維度,而不是示例中僅有的2個維度,維度的含義幾乎沒法解釋。
在word2vec操做中,有一個著名的性別偏見例子,「doctor」這個詞的女性版本過去被計算爲「nurse」。我試着複製,但沒有獲得一樣的結果:
word_vectors.most_similar( positive = ['doctor', 'woman'], negative = ['man'], topn = 1) [('gynecologist', 0.7093892097473145)]
咱們獲得了婦科醫生,因此,我想這多是進步吧?
好吧,如今咱們已經檢查了一些基本的函數,讓咱們來研究咱們的可視化吧!
首先,咱們須要一個Map函數。假設咱們有一個要可視化的字符串列表和一個詞嵌入,咱們但願:
咱們須要如下庫:
import matplotlib.pyplot as plt import seaborn as sns from sklearn.decomposition import PCA import adjustText
列表中不經常使用的一個庫是adjustText,這是一個很是方便的包,它使得在散點圖中編寫圖例變得簡單,而不會重疊。對於我來講,找到這個解決方案很是困難,並且據我所知,在matplotlib或seaborn中沒有辦法作到這一點。
無需進一步說明,此函數將徹底知足咱們的須要:
def plot_2d_representation_of_words( word_list, word_vectors, flip_x_axis = False, flip_y_axis = False, label_x_axis = "x", label_y_axis = "y", label_label = "city"): pca = PCA(n_components = 2) word_plus_coordinates=[] for word in word_list: current_row = [] current_row.append(word) current_row.extend(word_vectors[word]) word_plus_coordinates.append(current_row) word_plus_coordinates = pd.DataFrame(word_plus_coordinates) coordinates_2d = pca.fit_transform( word_plus_coordinates.iloc[:,1:300]) coordinates_2d = pd.DataFrame( coordinates_2d, columns=[label_x_axis, label_y_axis]) coordinates_2d[label_label] = word_plus_coordinates.iloc[:,0] if flip_x_axis: coordinates_2d[label_x_axis] = \ coordinates_2d[label_x_axis] * (-1) if flip_y_axis: coordinates_2d[label_y_axis] = \ coordinates_2d[label_y_axis] * (-1) plt.figure(figsize = (15,10)) p1=sns.scatterplot( data=coordinates_2d, x=label_x_axis, y=label_y_axis) x = coordinates_2d[label_x_axis] y = coordinates_2d[label_y_axis] label = coordinates_2d[label_label] texts = [plt.text(x[i], y[i], label[i]) for i in range(len(x))] adjustText.adjust_text(texts)
如今是測試函數的時候了。我畫出了歐洲國家的首都。你可使用任何列表,例如總統或其餘歷史人物的名字,汽車品牌,烹飪原料,搖滾樂隊等等,只要在word_list參數中傳遞它。頗有意思的是看到一堆堆的東西在兩個軸後面造成一個意思。
若是你想重現結果,如下是城市:
capitals = [ 'Amsterdam', 'Athens', 'Belgrade', 'Berlin', 'Bern', 'Bratislava', 'Brussels', 'Bucharest', 'Budapest', 'Chisinau', 'Copenhagen','Dublin', 'Helsinki', 'Kiev', 'Lisbon', 'Ljubljana', 'London', 'Luxembourg','Madrid', 'Minsk', 'Monaco', 'Moscow', 'Nicosia', 'Nuuk', 'Oslo', 'Paris','Podgorica', 'Prague', 'Reykjavik', 'Riga', 'Rome', 'San_Marino', 'Sarajevo','Skopje', 'Sofia', 'Stockholm', 'Tallinn', 'Tirana', 'Vaduz', 'Valletta', 'Vatican', 'Vienna', 'Vilnius', 'Warsaw', 'Zagreb']
假設你仍然有咱們在上一節中建立的word_vectors對象,能夠這樣調用函數:
plot_2d_representation_of_words( word_list = capitals, word_vectors = word_vectors, flip_y_axis = True)
(翻轉y軸是爲了建立更像真實貼圖的表示。)
結果是:
我不知道你的感覺,當我第一次看到地圖的時候,我真不敢相信結果會有多好!是的,固然,你看得越久,你發現的「錯誤」就越多,一個很差的結果就是莫斯科離東方的距離並不像它應該的那麼遠……儘管如此,東西方几乎徹底分離,斯堪的納維亞和波羅的海國家被很好地組合在一塊兒,意大利周圍的首都也是如此。
須要強調的是,這毫不是純粹的地理位置,例如,雅典離西方很遠,但這是有緣由的。讓咱們回顧一下上面的地圖是如何導出的,這樣咱們就能夠充分理解它了:
因此,語義的信息不能表明真實地理信息。但我以爲這個嘗試頗有趣。
原文連接:https://towardsdatascience.co...
歡迎關注磐創AI博客站:
http://panchuang.net/
sklearn機器學習中文官方文檔:
http://sklearn123.com/
歡迎關注磐創博客資源彙總站:
http://docs.panchuang.net/