團隊任務 | 預估時間 | 實際時間 | 完成日期 |
---|---|---|---|
新增其餘學院的爬蟲 | 180 | 130 | 11.30 |
新增其餘學院的數據庫字段修改 | 180 | —— | —— |
新增其餘學院的數據庫部署到es | 180 | —— | —— |
前端和新增學院數據的交互 | 300 | —— | —— |
實現網站的定時爬取以及es的自動同步(絕對路徑版) | 200 | 180 | 11.30 |
實現網站的定時爬取以及es的自動同步(相對路徑版) | 60 | —— | —— |
主界面設置最新通知播報欄樣式 | 300 | —— | —— |
將項目部署到服務器 | 200 | —— | —— |
擴大使用範圍至移動端 | 100 | —— | —— |
前端界面的美化 | 100 | —— | —— |
需求說明書的調整 | 60 | —— | —— |
搜索引擎測試 | 80 | —— | —— |
用戶使用調查 | 100 | —— | —— |
Beta階段發佈說明 | 200 | —— | —— |
成員 | 任務安排 | 預期任務量/小時 |
---|---|---|
秦玉(組長) | 實現網站的定時爬取以及es的自動同步(絕對路徑版)、編寫博客園 | 180 |
陳曉菲 | 實現網站的定時爬取以及es的自動同步(絕對路徑版)、編寫博客園 | 180 |
韓燁 | 新增其餘學院的爬蟲 | 180 |
姚雯婷 | 新增其餘學院的爬蟲 | 180 |
羅佳 | 實現網站的定時爬取以及es的自動同步(絕對路徑版)、編寫博客園 | 180 |
高天 | 實現網站的定時爬取以及es的自動同步(絕對路徑版) | 180 |
bat文件只實現了從絕對路徑啓動項目,若是這個bat文件給了別人,別人也不能用,因此須要修改bat文件爲相對路徑,同時還須要實現自動開啓數據庫,這個也沒有實現,不少東西感受都要在服務器上才能作出來,但服務器如今還處在瞭解的階段。前端
像要作一個腳本,咱們的啓動程序都是不能關閉的命令行,必需要在後臺執行才能打開相應的網頁,那腳本的話咱們剛開始覺得是隻能一個命令運行事後關閉了這個命令才能運行下一個命令因此就在網上百度,發現實際上是能夠實現新開的窗口本身運行不影響以後的命令出現:redis
start a.bat
可是這個命令試過以後有個缺陷,就是運行晚以後並不會保留當前窗口而是要立馬退出,並不符合咱們的要求,咱們須要的是打開以後保留命令行,因此又百度發現了另外的代碼:數據庫
start cmd /k ""
""裏面輸入命令便可,這樣的窗口是能夠保留的,同時用&&來分割下一行的命令,因此一句裏面就能夠徹底寫完代碼服務器
後面咱們還發現,咱們是先爬取頁面再打開es再打開log再打開redis,這個是必定要有順序的,而且還須要等待上一個的完成才能繼續下一個的執行,那要怎麼辦呢,由於咱們的窗口是不會關閉的,而且也會一直不斷的跳文字,檢測不了上一個命令是否完成,因此咱們就用了一個框架
下面這條命令會等待10秒,而且能夠按任意鍵跳過等待 TIMEOUT /T 10 下面這條命令會等待300秒,而且只能按下CTRL+C來跳過 TIMEOUT /T 300 /NOBREAK 下面這條命令會持續等待,直到你按下任意按鍵.功能相似於pause TIMEOUT /T -1 下面這條命令會持續等待,直到你按下CTRL+C按鍵 TIMEOUT /T -1 /NOBREAK
固然還有sleep和wait代碼可使用,也是相同的做用。須要注意的是,不能使用他的跳過,這樣的話會直接退出窗口,不執行下一個命令。
運用了bat文件來實現全自動化的啓動項目,不須要以前繁瑣的打開三四個命令行來運行程序,測試數據。函數
已經完成了輪機學院的爬取代碼,如今總共是有兩個學院的爬取數據。
爬取輪機工程學院網站內容的代碼總體框架和以前爬取計算機工程學院的基本一致,但因爲兩個網站源碼結構有差別,須要根據實際源碼進行數據篩選。新建一個輪機工程學院的表,字段內容與以前的計算機的表一致。
首先爬取導航欄中的連接,從而得到全部文章連接。定義start_url爲輪機工程學院網站首頁,因爲首頁中的各分欄不包含在導航欄中,故將其設爲other_urls。↓
測試
實例化scapy的selector,使用xpath選擇器篩選出全部導航欄連接,調用回調函數進行進一步解析,獲得全部的文章頁面連接。先使用選擇器提取出文章網頁中的標題、內容等數據。經過item loader加載item。itemloadr提供了一個容器,讓咱們配置某一個字段該使用哪一種規則。網站
https://www.leangoo.com/kanban/board/go/2565273搜索引擎