Java實現中文word2vec

依賴:java

  1. java深度學習框架,deeplearning4j:http://deeplearning4j.org/word2vecgit

  2. 開源中文分詞框架,ansj_seg:http://www.oschina.net/p/ansjgithub

  3. 項目GitHub地址:https://github.com/YuyuZha0/word2vec框架

     

     

說明:word2vec深層次的原理不作說明,要實現word2vec主要要作到只有一件事,那就是詞彙的識別。英文因爲是空格符隔開的,因此分詞比較容易,可是中文(包括日文、韓文)等是靠字造成句子的,因此藉助分詞工具將句子進行語法拆分很重要。word2vec藉助必定的模型,經過對語料上下文進行分析,從而將詞的含義投射到向量空間。類似的詞在向量空間夾角很小,而不一樣的詞差異則較大。須要注意的是,這一過程是不須要人工干預的,你只須要準備好語料便可.工具

 

2016-12-19更新:全部代碼均遷移到了GitHub學習

相關文章
相關標籤/搜索