基於10個類別假新聞1000篇文章數據訓練中文word2vec模型

時間 2020-12-30

原文原文鏈接

爬取語料庫利用爬蟲爬取百度網頁每個類別假新聞10頁，共1000篇文章。爬取的類別如下：數據預處理彙總把爬取到的10個txt文件都放在同一個文件夾下，利用程序將這10個txt文件合併在一起。把彙總的txt文件命名爲result.txt。程序如下： file: FileMerage.py # os模塊中包含很多操作文件和目錄的函數 import os # 獲取目標文件夾的路徑 mer

>>阅读原文<<