Python爬蟲與一汽項目【綜述】

項目來源

這個爬蟲項目是 去年實驗室去一汽後的第一個項目(基本交工,如今處於更新維護階段)。內容大概是,獲取到全國31個省份政府的關於汽車的招標公告,再用圖形界面的方式展現爬蟲內容。在完成政府招標採購網以後,提出新的關於國企的招標信息,這些爬蟲都是關於這些企業的爬蟲代碼。php

爬蟲編寫說明

須要的安裝的東西很少,語言就用python3html

數據庫:mysql  能夠安裝正常的mysql,也能夠安裝wampserver的php服務器(wampserver裏面有輕量級的mysql服務器,很方便)前端

數據庫安裝完成後,再安裝一個mysql前端的管理工具,mysql front或者navicat premium(以前用的就是這個)python

******************************************************mysql

安裝完成以後,是編寫說明sql

爬取網站中 與車相關 的網頁列表,要往數據庫存 title(標題),href(網頁的連接),招標時間,content(網頁中的招標內容)數據庫

編寫風格 能夠參照 附件裏的爬蟲文件,解析工具的話 能夠用Beautiful Soup,也能夠用Xpath(我習慣於Xpath,所以後續的文件都是用Xpath寫的)服務器

附件裏爬蟲文件的流程:工具

1. 先根據URL (多是get也多是post) 獲取到htmlpost

2. 經過解析工具從網頁列表中 得到每一個單獨網頁的 標題 時間 網頁連接

3. 判斷  標題是否和車相關,時間是否符合設置要求

4. 若是符合條件 ,根據網頁連接  來獲取網頁中的content內容

5. 這個內容 其實就是把 整個網頁中的文字,去掉標籤,加到一塊兒變成一段str

相關文章
相關標籤/搜索