項目名稱數據庫 |
Crawling is going on服務器 |
項目版本異步 |
Beta版本優化 |
負責人網站 |
北京航空航天大學計算機學院 newbe軟件團隊spa |
聯繫方式操作系統 |
http://www.cnblogs.com/newbe線程 |
要求發佈日期blog |
2014-12-27ci |
a)以前沒有考慮爬取過程當中,出現異常會致使爬取線程非正常終止,可是資源被佔用。隨着異常線程的增長,致使可利用資源所有被佔用,整個軟件中止工做;在新版本考慮了發生異常釋放資源,保證爬取的不間斷性。
b)將更新數據庫的方法改成異步互斥更新方式,保證了同一時間只有一個線程佔用數據庫,保證了數據庫數據的正確性,同時避免了SQLException。
c)精肯定位目標網頁,減小了爬取失敗率和太太率,保證了爬蟲的效率和正確性。
d)修改命名方式解決了過去由於重命名而致使文件沒法刪除或者打開的狀況。
e)修復爬取過程當中可能爬到具備重複URL的網頁的缺陷。
1.2 新增功能
a) 專門爬取問答網頁,用戶可根據本身興趣選擇爬取不一樣的網站或者從當前版本給定的全部網站爬取知足流水線組需求。
b) 專門爬取pdf功能。
c) 專門爬取doc功能。
d) 專門爬取ppt功能。
e) 界面進行了排版和優化
f) 相應修改了分析功能,對數據庫內爬取文件的類型和數量進行統計,以餅狀圖的形式展現。同時以動態的柱狀圖形式顯示爬取過程。
操做系統需求 |
WINDOWS XP,WINDOWS 7,WINDOWS 8 |
運行環境需求 |
需安裝最新版本的JRE |
數據庫需求 |
在聯網的環境下能夠直接鏈接服務器的數據庫,本地數據庫沒有特殊要求 |
將jar軟件複製到本地,運行便可。
爬取問答網站時,部分網站數量較少,所有頁面爬取完畢後,仍然阻礙其它網站線程佔用資源,會致使爬取速度漸漸變慢。
該版本代碼及程序發佈在服務器219.224.191.25上,可自行下載試用。