基於10個類別假新聞1000篇文章數據訓練中文word2vec模型

爬取語料庫 利用爬蟲爬取百度網頁每個類別假新聞10頁,共1000篇文章。爬取的類別如下:   數據預處理 彙總 把爬取到的10個txt文件都放在同一個文件夾下,利用程序將這10個txt文件合併在一起。 把彙總的txt文件命名爲result.txt。 程序如下:  file: FileMerage.py # os模塊中包含很多操作文件和目錄的函數 import os # 獲取目標文件夾的路徑 mer
相關文章
相關標籤/搜索