基於搜狐新聞數據【完整版】訓練中文word2vec模型

下載語料庫 進入搜狗實驗室下載搜狐新聞數據,得到的是news_sohusite_xml.full.tar.gz這個壓縮包,我們下載的是完整版的。   數據預處理 原始數據中包含完整的html文件,所以需要提取其中的中文內容,我們只提取其中<content>標籤包含的內容。 利用如下兩條命令解壓文件。(在虛擬機上運行) tar -zxvf news_sohusite_xml.full.tar.gz
相關文章
相關標籤/搜索