推薦：騰訊開源的詞向量精簡版本下載

時間 2021-01-24

標籤 git github 服務器 ide 學習測試翻譯 code orm blog 欄目騰訊简体版

原文原文鏈接

騰訊AI Lab 宣佈開源大規模、高質量的中文詞向量數據，該數據包含800多萬中文詞彙，相比現有的公開數據，在覆蓋率、新鮮度及準確性上大幅提升，爲對話回覆質量預測和醫療實體識別等天然語言處理方向的業務應用帶來顯著的效能提高。可是有一個很大問題，就是詞向量過大，約16g，用普通服務器讀取詞向量須要半小時。通常用戶並不須要太大的詞向量，爲方便用戶，本文蒐集了騰訊原版詞向量精簡版本，並提供各類大小版本的詞向量下載。git

有關詞向量和嵌入技術請看這篇文章（圖解word2vec（原文翻譯））github

騰訊AI Lab開源大規模高質量中文詞向量數據簡介：服務器

https://cloud.tencent.com/developer/article/1356164ide

原版騰訊詞向量下載：學習

https://ai.tencent.com/ailab/nlp/data/Tencent_AILab_ChineseEmbedding.tar.gz （6.31g，解壓約16g，文末提供百度雲下載）測試

如何使用

不少模型須要測試，建議初次測試的時候使用稍小的詞向量版本，好比70000個詞的版本（133mb），最後再使用原版800萬個詞的版本，這樣能夠節省不少實驗時間。不少時候，70000個詞的詞向量已經能夠知足要求了。翻譯

讀取模型code

from gensim.models
import KeyedVectors

model
= KeyedVectors.load_word2vec_format("50-small.txt")

使用模型orm

model.most_similar(positive=['女',
'國王'],
negative=['男'],
topn=1)

model.doesnt_match("上海 成都 廣州 北京".split(" "))

model.similarity('女人',
'男人')

model.most_similar('特朗普',topn=10)

深度學習模式示例

使用LSTM模型，根據豆瓣評論，預測打分。blog

首先下載豆瓣的數據

豆瓣評論數據149M （文末提供下載）

而後下載庫對應的分詞包。（文末提供下載）
使用效果

加載70000字典前

加載70000字典後

代碼文件見

Use Tencent Word Embeddings with douban datasets.ipynb（文末提供下載）

參考：

https://github.com/cliuxinxin/TX-WORD2VEC-SMALL （這位小哥蒐集的，但願star下）

https://cloud.tencent.com/developer/article/1356164

總結和下載

騰訊AI Lab 開源的中文詞向量數據，包含800多萬中文詞彙，相比現有的公開數據，在覆蓋率、新鮮度及準確性上大幅提升，可是有一個很大問題，就是詞向量過大，約15g，用普通服務器讀取詞向量須要半小時。通常用戶並不須要太大的詞向量，爲方便用戶，本文蒐集了騰訊原版詞向量精簡版本，並提供各類大小版本的詞向量下載。並提供各類大小版本的詞向量下載。

詞向量及相關資料下載：

根目錄：

5000-small.txt 這個有5000詞，能夠下下來玩玩
45000-small.txt 這個有4.5w的詞，已經能解決不少問題了
70000-small.txt 7w詞 133MB
100000-small.txt 10w詞 190MB
- 500000-small.txt 50w詞 953MB
1000000-small.txt 100w詞 1.9GB
- 2000000-small.txt 200w詞 3.8GB
Tencent_AILab_ChineseEmbedding.tar.gz 原版詞向量（6.31g），解壓後16g

code文件夾

doubanmovieshortcomments.zip豆瓣評論數據149M
分詞文件（如：8000000-dict.txt等）
Use Tencent Word Embeddings with douban datasets.ipynb（測試代碼）

相關標籤/搜索