Word2vec 是 Word Embedding 方式之一,屬於 NLP 領域。他是將詞轉化爲「可計算」「結構化」的向量的過程。本文將講解 Word2vec 的原理和優缺點。學習
這種方式在 2018 年以前比較主流,可是隨着 BERT、GPT2.0 的出現,這種方式已經不算效果最好的方法了。優化
什麼是 Word Embedding ?人工智能
在說明 Word2vec 以前,須要先解釋一下 Word Embedding。 它就是將「不可計算」「非結構化」的詞轉化爲「可計算」「結構化」的向量。cdn
這一步解決的是」將現實問題轉化爲數學問題「,是人工智能很是關鍵的一步。blog
將現實問題轉化爲數學問題只是第一步,後面還須要求解這個數學問題。因此 Word Embedding 的模型自己並不重要,重要的是生成出來的結果——詞向量。由於在後續的任務中會直接用到這個詞向量。ip
什麼是 Word2vec ?get
Word2vec 是 Word Embedding 的方法之一。他是 2013 年由谷歌的 Mikolov 提出了一套新的詞嵌入方法。數學
Word2vec 在整個 NLP 裏的位置能夠用下圖表示:產品
在 Word2vec 出現以前,已經有一些 Word Embedding 的方法,可是以前的方法並不成熟,也沒有大規模的獲得應用。it
下面會詳細介紹 Word2vec 的訓練模型和用法。
CBOW(Continuous Bag-of-Words Model)和Skip-gram (Continuous Skip-gram Model),是Word2vec 的兩種訓練模式。下面簡單作一下解釋:
CBOW
經過上下文來預測當前值。至關於一句話中扣掉一個詞,讓你猜這個詞是什麼。
Skip-gram
用當前詞來預測上下文。至關於給你一個詞,讓你猜前面和後面可能出現什麼詞。
優化方法
爲了提升速度,Word2vec 常常採用 2 種加速方式:
具體加速方法就不詳細講解了,感興趣的能夠本身查找資料。
須要說明的是:Word2vec 是上一代的產物(18 年以前), 18 年以後想要獲得最好的效果,已經不使用 Word Embedding 的方法了,因此也不會用到 Word2vec。
優勢:
缺點:
本文首發自 產品經理的 AI 學習庫 easyai.tech