Python爬蟲與一汽項目【綜述】

時間 2019-11-11

原文原文鏈接

項目來源

這個爬蟲項目是去年實驗室去一汽後的第一個項目(基本交工，如今處於更新維護階段)。內容大概是，獲取到全國31個省份政府的關於汽車的招標公告，再用圖形界面的方式展現爬蟲內容。在完成政府招標採購網以後，提出新的關於國企的招標信息，這些爬蟲都是關於這些企業的爬蟲代碼。php

須要的安裝的東西很少，語言就用python3html

數據庫：mysql 能夠安裝正常的mysql，也能夠安裝wampserver的php服務器（wampserver裏面有輕量級的mysql服務器，很方便）前端

數據庫安裝完成後，再安裝一個mysql前端的管理工具，mysql front或者navicat premium(以前用的就是這個)python

******************************************************mysql

安裝完成以後，是編寫說明sql

爬取網站中與車相關的網頁列表，要往數據庫存 title(標題),href(網頁的連接),招標時間，content（網頁中的招標內容）數據庫

編寫風格能夠參照附件裏的爬蟲文件，解析工具的話能夠用Beautiful Soup，也能夠用Xpath（我習慣於Xpath，所以後續的文件都是用Xpath寫的）服務器

附件裏爬蟲文件的流程：工具

1. 先根據URL （多是get也多是post）獲取到htmlpost

2. 經過解析工具從網頁列表中得到每一個單獨網頁的標題時間網頁連接

3. 判斷標題是否和車相關，時間是否符合設置要求

4. 若是符合條件，根據網頁連接來獲取網頁中的content內容

5. 這個內容其實就是把整個網頁中的文字，去掉標籤，加到一塊兒變成一段str

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。