這個爬蟲項目是 去年實驗室去一汽後的第一個項目(基本交工,如今處於更新維護階段)。內容大概是,獲取到全國31個省份政府的關於汽車的招標公告,再用圖形界面的方式展現爬蟲內容。在完成政府招標採購網以後,提出新的關於國企的招標信息,這些爬蟲都是關於這些企業的爬蟲代碼。php
須要的安裝的東西很少,語言就用python3html
數據庫:mysql 能夠安裝正常的mysql,也能夠安裝wampserver的php服務器(wampserver裏面有輕量級的mysql服務器,很方便)前端
數據庫安裝完成後,再安裝一個mysql前端的管理工具,mysql front或者navicat premium(以前用的就是這個)python
******************************************************mysql
安裝完成以後,是編寫說明sql
爬取網站中 與車相關 的網頁列表,要往數據庫存 title(標題),href(網頁的連接),招標時間,content(網頁中的招標內容)數據庫
編寫風格 能夠參照 附件裏的爬蟲文件,解析工具的話 能夠用Beautiful Soup,也能夠用Xpath(我習慣於Xpath,所以後續的文件都是用Xpath寫的)服務器
附件裏爬蟲文件的流程:工具
1. 先根據URL (多是get也多是post) 獲取到htmlpost
2. 經過解析工具從網頁列表中 得到每一個單獨網頁的 標題 時間 網頁連接
3. 判斷 標題是否和車相關,時間是否符合設置要求
4. 若是符合條件 ,根據網頁連接 來獲取網頁中的content內容
5. 這個內容 其實就是把 整個網頁中的文字,去掉標籤,加到一塊兒變成一段str