基於搜狐新聞數據【完整版】訓練中文word2vec模型

時間 2020-12-30

原文原文鏈接

下載語料庫進入搜狗實驗室下載搜狐新聞數據，得到的是news_sohusite_xml.full.tar.gz這個壓縮包，我們下載的是完整版的。數據預處理原始數據中包含完整的html文件，所以需要提取其中的中文內容，我們只提取其中<content>標籤包含的內容。利用如下兩條命令解壓文件。(在虛擬機上運行) tar -zxvf news_sohusite_xml.full.tar.gz

>>阅读原文<<