一文看懂 Word2vec(基本概念+2種訓練模型+5個優缺點)

Word2vec

一文看懂Word2vec

Word2vec 是 Word Embedding 方式之一,屬於 NLP 領域。他是將詞轉化爲「可計算」「結構化」的向量的過程。本文將講解 Word2vec 的原理和優缺點。學習

這種方式在 2018 年以前比較主流,可是隨着 BERT、GPT2.0 的出現,這種方式已經不算效果最好的方法了。優化

什麼是 Word2vec ?

什麼是 Word Embedding ?人工智能

在說明 Word2vec 以前,須要先解釋一下 Word Embedding。 它就是將「不可計算」「非結構化」的詞轉化爲「可計算」「結構化」的向量。cdn

這一步解決的是」將現實問題轉化爲數學問題「,是人工智能很是關鍵的一步。blog

將現實問題轉化爲數學問題

將現實問題轉化爲數學問題只是第一步,後面還須要求解這個數學問題。因此 Word Embedding 的模型自己並不重要,重要的是生成出來的結果——詞向量。由於在後續的任務中會直接用到這個詞向量。ip

什麼是 Word2vec ?get

Word2vec 是 Word Embedding 的方法之一。他是 2013 年由谷歌的 Mikolov 提出了一套新的詞嵌入方法。數學

Word2vec 在整個 NLP 裏的位置能夠用下圖表示:產品

Word2vec 在整個 NLP 裏的位置

在 Word2vec 出現以前,已經有一些 Word Embedding 的方法,可是以前的方法並不成熟,也沒有大規模的獲得應用。it

下面會詳細介紹 Word2vec 的訓練模型和用法。

Word2vec 的 2 種訓練模式

CBOW(Continuous Bag-of-Words Model)和Skip-gram (Continuous Skip-gram Model),是Word2vec 的兩種訓練模式。下面簡單作一下解釋:

CBOW

經過上下文來預測當前值。至關於一句話中扣掉一個詞,讓你猜這個詞是什麼。

CBOW經過上下文來預測當前值

Skip-gram

用當前詞來預測上下文。至關於給你一個詞,讓你猜前面和後面可能出現什麼詞。

Skip-gram用當前詞來預測上下文

優化方法

爲了提升速度,Word2vec 常常採用 2 種加速方式:

  1. Negative Sample(負採樣)
  2. Hierarchical Softmax

具體加速方法就不詳細講解了,感興趣的能夠本身查找資料。

Word2vec 的優缺點

須要說明的是:Word2vec 是上一代的產物(18 年以前), 18 年以後想要獲得最好的效果,已經不使用 Word Embedding 的方法了,因此也不會用到 Word2vec。

優勢:

  1. 因爲 Word2vec 會考慮上下文,跟以前的 Embedding 方法相比,效果要更好(但不如 18 年以後的方法)
  2. 比以前的 Embedding方 法維度更少,因此速度更快
  3. 通用性很強,能夠用在各類 NLP 任務中

Word2vec在類似度計算上效果不錯

缺點:

  1. 因爲詞和向量是一對一的關係,因此多義詞的問題沒法解決。
  2. Word2vec 是一種靜態的方式,雖然通用性強,可是沒法針對特定任務作動態優化

Word2vec沒法解決多義詞的問題

本文首發自 產品經理的 AI 學習庫 easyai.tech

相關文章
相關標籤/搜索