利用中文數據跑Google開源項目word2vec

時間 2021-01-13

原文原文鏈接

一直聽說word2vec在處理詞與詞的相似度的問題上效果十分好，最近自己也上手跑了跑Google開源的代碼（https://code.google.com/p/word2vec/）。 1、語料首先準備數據：採用網上博客上推薦的全網新聞數據(SogouCA)，大小爲2.1G。從ftp上下載數據包SogouCA.tar.gz： 1 wget ftp://ftp.labs.sogou.com/Da

>>阅读原文<<