騰訊AI Lab 宣佈開源大規模、高質量的中文詞向量數據,該數據包含800多萬中文詞彙,相比現有的公開數據,在覆蓋率、新鮮度及準確性上大幅提升,爲對話回覆質量預測和醫療實體識別等天然語言處理方向的業務應用帶來顯著的效能提高。可是有一個很大問題,就是詞向量過大,約16g,用普通服務器讀取詞向量須要半小時。通常用戶並不須要太大的詞向量,爲方便用戶,本文蒐集了騰訊原版詞向量精簡版本,並提供各類大小版本的詞向量下載。git
有關詞向量和嵌入技術請看這篇文章(圖解word2vec(原文翻譯))github
騰訊AI Lab開源大規模高質量中文詞向量數據簡介:服務器
https://cloud.tencent.com/developer/article/1356164ide
原版騰訊詞向量下載:學習
https://ai.tencent.com/ailab/nlp/data/Tencent_AILab_ChineseEmbedding.tar.gz (6.31g,解壓約16g,文末提供百度雲下載)測試
不少模型須要測試,建議初次測試的時候使用稍小的詞向量版本,好比70000個詞的版本(133mb),最後再使用原版800萬個詞的版本,這樣能夠節省不少實驗時間。不少時候,70000個詞的詞向量已經能夠知足要求了。翻譯
讀取模型code
from gensim.models import KeyedVectors model = KeyedVectors.load_word2vec_format("50-small.txt")
使用模型orm
model.most_similar(positive=['女', '國王'], negative=['男'], topn=1) model.doesnt_match("上海 成都 廣州 北京".split(" ")) model.similarity('女人', '男人') model.most_similar('特朗普',topn=10)
使用LSTM模型,根據豆瓣評論,預測打分。blog
豆瓣評論數據149M (文末提供下載)
而後下載庫對應的分詞包。(文末提供下載)
加載70000字典前
加載70000字典後
Use Tencent Word Embeddings with douban datasets.ipynb(文末提供下載)
https://github.com/cliuxinxin/TX-WORD2VEC-SMALL (這位小哥蒐集的,但願star下)
https://cloud.tencent.com/developer/article/1356164
騰訊AI Lab 開源的中文詞向量數據,包含800多萬中文詞彙,相比現有的公開數據,在覆蓋率、新鮮度及準確性上大幅提升,可是有一個很大問題,就是詞向量過大,約15g,用普通服務器讀取詞向量須要半小時。通常用戶並不須要太大的詞向量,爲方便用戶,本文蒐集了騰訊原版詞向量精簡版本,並提供各類大小版本的詞向量下載。並提供各類大小版本的詞向量下載。
詞向量及相關資料下載:
根目錄:
5000-small.txt 這個有5000詞,能夠下下來玩玩
45000-small.txt 這個有4.5w的詞,已經能解決不少問題了
70000-small.txt 7w詞 133MB
100000-small.txt 10w詞 190MB
1000000-small.txt 100w詞 1.9GB
code文件夾
doubanmovieshortcomments.zip豆瓣評論數據149M
分詞文件(如:8000000-dict.txt等)