利用中文數據跑Google開源項目word2vec

一直聽說word2vec在處理詞與詞的相似度的問題上效果十分好,最近自己也上手跑了跑Google開源的代碼(https://code.google.com/p/word2vec/)。 1、語料 首先準備數據:採用網上博客上推薦的全網新聞數據(SogouCA),大小爲2.1G。  從ftp上下載數據包SogouCA.tar.gz: 1 wget ftp://ftp.labs.sogou.com/Da
相關文章
相關標籤/搜索