爬蟲簡介
這是一個在未登陸的狀況下,根據企業名稱搜索,爬取企業頁面數據的採集程序python
注意: 這是一個比較簡單的爬蟲,基本上只用到了代理,沒有用到其餘的反反爬技術,不過因爲爬取的數據比較多,適合刷解析技能的熟練度,因此高手勿進mysql
代碼已經上傳到GitHub上,有用還請給個星git
python版本:python2.7github
編碼工具:pycharmsql
數據存儲:mysql數據庫
爬蟲結構:廣度爬蟲微信
爬蟲思路:
-
先獲取須要採集信息的公司:python2.7
- 從數據庫中獲取
- 獲取字段:etid,etname
- 將獲取的數據存儲的狀態表中
- 從狀態表中獲取數據,並更新狀態表
-
拼接初始URL:ide
- 將etname和初始url進行拼接,得到初始網址
- 將初始url放到一個列表中,獲取HTML的時候如何出錯,將出錯的url放到另外一個列表中,進行循環獲取
-
請求解析初始一級頁面:工具
- 驗證查詢的公司是否正確(??)
- 獲取二級頁面url
- 將二級url放到一個列表中,獲取HTML的時候如何出錯,將出錯的url放到另外一個列表中,進行循環獲取
-
請求解析二級頁面:
- 獲取的信息待定
-
將公司的信息存儲到數據庫中:
- 建表
- 存儲信息
所建的表:
- 企業主要信息: et_host_info
- 工商信息: et_busi_info
- 分支機構信息: et_branch_office
- 軟件著做權信息: et_container_copyright_info
- 網站備案信息: et_conrainer_icp_info
- 對外投資信息: et_foreign_investment_info
- 融資信息: et_rongzi_info
- 股東信息: et_stareholder_info
- 商標信息: et_trademark_info
- 微信公衆號信息:et_wechat_list_info
- 狀態表: et_name_status
看一下部分的結果圖: