我是如何分析CNKI上全部關於「齒輪」文章的?(一)CNKI爬蟲記

做爲一個二流大學的不會搞科研的二流窮逼博士,科研仍是要搞一點,專業是齒輪,因此就想看看CNKI上關於「齒輪」的文章信息。有點python小基礎,寫個python 爬蟲小工具,共享在Github上,各位須要自取,地址:https://github.com/spartajet/...python

首先感謝這位大神的博客http://www.qiuqingyu.cn/2017/...,我是參照着大神代碼寫的,讀了大神的代碼,我本身寫了一個,主要改進以下:mysql

  1. 改成面向對象
  2. 改進了好比做者,年份,雜誌,摘要的算法
  3. 數據存儲在mysql中,用的批量插入,有利於後期的統計分析
  4. fix some bugs

作爬蟲,首先要找個好的API,學校正購了CNKI的服務,可是從正常的頁面,我沒有發現好用的API,因此用的仍是上面大神的API,地址:http://search.cnki.com.cn/def...git

搜索頁面以下圖:github

clipboard.png

這個頁面能夠查到文章標題,部分摘要(不使用),文章來源,時間,文章類型(期刊、會議、碩士、博士)等算法

文章詳情頁面以下圖:sql

clipboard.png

這個頁面能夠獲取到完整的摘要,可是沒有關鍵字(比較遺憾)ide

相關文章
相關標籤/搜索