基於Python3.6爬蟲採集知網文獻

時間 2020-12-24

原文原文鏈接

最近因公司需求採集知網數據（標題、來源、關鍵字、作者、單位、分類號、摘要、相似文獻這些字段），由於知網防爬太強，內容頁鏈接加密，嘗試了pyspider、scrapy、selenium，都無法進入內容頁，直接跳轉到知網首頁。於是只好採用知網的一個接口進行採集：鏈接: link，以下是兩個網站關於「卷積神經網絡」的期刊數據量相比如下圖所示：知網搜索結果：遠見搜索結果：仔細觀察會發現，該網站是po

>>阅读原文<<