Beta版本發佈說明

項目名稱數據庫

Crawling is going on服務器

項目版本異步

Beta版本優化

負責人網站

北京航空航天大學計算機學院 newbe軟件團隊spa

聯繫方式操作系統

http://www.cnblogs.com/newbe線程

要求發佈日期blog

2014-12-27ci

 

1  更新內容

1.1 修復缺陷

a)以前沒有考慮爬取過程當中,出現異常會致使爬取線程非正常終止,可是資源被佔用。隨着異常線程的增長,致使可利用資源所有被佔用,整個軟件中止工做;在新版本考慮了發生異常釋放資源,保證爬取的不間斷性。

b)將更新數據庫的方法改成異步互斥更新方式,保證了同一時間只有一個線程佔用數據庫,保證了數據庫數據的正確性,同時避免了SQLException。

c)精肯定位目標網頁,減小了爬取失敗率和太太率,保證了爬蟲的效率和正確性。

d)修改命名方式解決了過去由於重命名而致使文件沒法刪除或者打開的狀況。

e)修復爬取過程當中可能爬到具備重複URL的網頁的缺陷。

1.2 新增功能

 

a)  專門爬取問答網頁,用戶可根據本身興趣選擇爬取不一樣的網站或者從當前版本給定的全部網站爬取知足流水線組需求。

b)  專門爬取pdf功能。

c)  專門爬取doc功能。

d)  專門爬取ppt功能。

e)  界面進行了排版和優化

f)  相應修改了分析功能,對數據庫內爬取文件的類型和數量進行統計,以餅狀圖的形式展現。同時以動態的柱狀圖形式顯示爬取過程。

 

 

 

 

 

 

 

2  環境要求

 

操做系統需求

WINDOWS XP,WINDOWS 7,WINDOWS 8

運行環境需求

需安裝最新版本的JRE

數據庫需求

在聯網的環境下能夠直接鏈接服務器的數據庫,本地數據庫沒有特殊要求

 

3  安裝說明

將jar軟件複製到本地,運行便可。 

4  已知缺陷和限制

爬取問答網站時,部分網站數量較少,所有頁面爬取完畢後,仍然阻礙其它網站線程佔用資源,會致使爬取速度漸漸變慢。  

5  發佈地址

該版本代碼及程序發佈在服務器219.224.191.25上,可自行下載試用。

相關文章
相關標籤/搜索