團隊做業 & alpha最終測試報告

  本次ALPHA版本測試是依據Daily Scrum11.16(http://www.cnblogs.com/newbe/p/4101339.html)分配的任務有序進行的,從11.16~11.23。爲期一週。測試中期報告在Daily Scrum11.19(http://www.cnblogs.com/newbe/p/4109441.html)有所記錄,這篇博客發佈的是alpha版本最終測試報告。html

1、功能測試部分(負責人:黃偉龍)java

1  bug記錄與描述數據庫

bug1:沒法爬取出錯頁面apache

  bug發現時間:11.18  發現人:黃偉龍安全

  bug描述:當爬取到含有「錯誤404」信息的頁面時,程序會出錯並拋出異常:Exception in thread "Thread-11" java.lang.IllegalArgumentException: Invalid uri 'http://tieba.baidu.com/home/main?un=?????1': Invalid query
at org.apache.commons.httpclient.HttpMethodBase.<init>(HttpMethodBase.java:222)
at org.apache.commons.httpclient.methods.GetMethod.<init>(GetMethod.java:89)
at DownLoadFile.run(DownLoadFile.java:59)bash

  bug現狀:已解決服務器

  解決時間:11.20ide

  解決人:王驁性能

bug2:沒法爬取URL帶漢字的頁面測試

  bug發現時間:11.18   發現人:黃偉龍

  bug描述:如百度搜索中的URL經常包括漢字的keywords,咱們的程序未進行轉碼從而拋出異常:Exception in thread "Thread-13" java.lang.IllegalArgumentException: Invalid uri 'http://tieba.baidu.com/f/index/forumpark?cn=??????&ci=0&pcn=???&pci=0&ct=1&rn=20&pn=1': Invalid query
at org.apache.commons.httpclient.HttpMethodBase.<init>(HttpMethodBase.java:222)
at org.apache.commons.httpclient.methods.GetMethod.<init>(GetMethod.java:89)
at DownLoadFile.run(DownLoadFile.java:59)

  bug現狀:已解決

  解決時間:11.20

  解決人:劉垚鵬

bug3:爬取到一些特殊網頁時仍會爬取終止

  bug發現時間:11.20~11.22   發現人:黃偉龍

  bug描述:當爬取到一些特殊的網頁時,會出現不一樣的錯誤從而致使程序終止,目前未查明終止緣由。

  網頁a):http://www.baidu.com/tools?url=http%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3DNskdEksJ6QQkpJtnmtSyPbNzqGauYttowpsasJ50aLyff47pVWOD7j811WDN6kDjtDU21-1vWuv4KEUvWbhQd_&jump=http%3A%2F%2Fkoubei.baidu.com%2Fwomc%2Fp%2Fsentry%3Ftitle%3D%02lyp%03_%02lyp%03%E4%BB%B7%E6%A0%BC%01_%01%E4%BC%98%E8%B4%A8%02lyp%03%E6%89%B9%E5%8F%91%01%2F%01%E9%87%87%E8%B4%AD%01%20%01-%01%20%01%E9%98%BF%E9%87%8C%E5%B7%B4%E5%B7%B4%01%26q%3Dlyp&key=surl  (阿里巴巴-百度口碑)

異常記錄爲(異常能夠復現):

RankUrl@456ffab9
Please check your provided http address!
org.apache.commons.httpclient.InvalidRedirectLocationException: Invalid redirect location: http://koubei.baidu.com/womc/p/sentry?surl=http%3A//www%2E1688%2Ecom/chanpin/%2D6C7970%2Ehtml&token=A3CDD44B05BE20D3477B699A3B4F1A07&title=lyp_lyp??????_??????lyp??????/??????+-+????????????&q=lyp
at org.apache.commons.httpclient.HttpMethodDirector.processRedirectResponse(HttpMethodDirector.java:619)
at org.apache.commons.httpclient.HttpMethodDirector.executeMethod(HttpMethodDirector.java:179)
at org.apache.commons.httpclient.HttpClient.executeMethod(HttpClient.java:397)
at org.apache.commons.httpclient.HttpClient.executeMethod(HttpClient.java:323)
at DownLoadFile.run(DownLoadFile.java:71)
Caused by: org.apache.commons.httpclient.URIException: Invalid query
at org.apache.commons.httpclient.URI.parseUriReference(URI.java:2049)
at org.apache.commons.httpclient.URI.<init>(URI.java:147)
at org.apache.commons.httpclient.HttpMethodDirector.processRedirectResponse(HttpMethodDirector.java:601)
... 4 more

  網頁b):http://image.baidu.com/channel?c=攝影&t=所有&s=0?fm=index&c=%E6%91%84%E5%BD%B1&t=%E4%BA%BA%E5%83%8F

異常記錄爲(異常能夠復現):

Exception in thread "Thread-532" java.lang.IllegalArgumentException: Invalid uri 'http://image.baidu.com/channel?c=攝影&t=所有&s=0?fm=index&c=%E6%91%84%E5%BD%B1&t=%E4%BA%BA%E5%83%8F': Invalid query
at org.apache.commons.httpclient.HttpMethodBase.<init>(HttpMethodBase.java:222)
at org.apache.commons.httpclient.methods.GetMethod.<init>(GetMethod.java:89)
at DownLoadFile.run(DownLoadFile.java:59)

  網頁c):http://tieba.baidu.com/f/index/forumpark?cn=???????&ci=0&pcn=???&pci=0&ct=1&rn=20&pn=1'

異常記錄(異常能夠復現):

nvalid query
at org.apache.commons.httpclient.HttpMethodBase.<init>(HttpMethodBase.java:222)
at org.apache.commons.httpclient.methods.GetMethod.<init>(GetMethod.java:89)
at DownLoadFile.run(DownLoadFile.java:59)

 bug現狀:待解決

bug解決計劃:在beta版本修改這個bug

2 程序性能報告

網址:http://ask.csdn.net
爬取頁面數:100
遠航全部時間:22898(毫秒,下面的數字都用毫秒計算)
newbe所用時間:24318
cpu佔有率:34.3%-44.7%
所佔內存:161.6MB
爬取頁面數:1000
遠航所用時間:596204
newbe所用時間:855707
cpu佔有率:29.6%-43.8%
所佔內存:199.1-228.6MB
極限狀況:
嘗試爬取10000個頁面,可是因爲爬取速度隨着爬取頁面數的增長明顯減慢,致使爬取過程緩慢,並且中途常常出現異常,最終最高達到4571個頁面,時間:8378920(毫秒),花費了2小時以上,感受這種極限極限測下去意義不是很大,因此就中止了。爬蟲速度越爬越慢感受很是明顯,並且測試的時候偶然性很大,和電腦運行時的狀況也有很大關係,並且測試人黃偉龍測試的時候爬取失敗率較高,失敗率達到20-%-30%,這方面在beta版本能夠改進。

3 功能報告

a)關鍵字搜索功能:

  測試了50組關鍵字搜索,包括中文英文字符,到目前爲止,關鍵字搜索功能目前未測出bug,能夠正確支持中文英文字符等各類輸入,出現的異常都與關鍵字搜索功能無關

b) 多網址搜索功能:

  測試了20組多網址搜索功能,爬取頁面數量從1到20,目前未測出bug,均可以正常進行搜索爬取,出現的異常都與
多網址搜索功能無關

 

2、UI測試部分(負責人:馬佐霖)

1 bug記錄與描述

  未發現UI交互、圖表顯示中有任何bug

2 UI改進建議

a.單詞錯誤:how much pages 改成how many pages

b.how to use 按鈕的位置不合理,目前是處於how much pages後面,邏輯性不強。改善建議是將其放在整個界面的頂部,而且將其長度拉長,使用戶第一眼看到的的就是咱們的how to use

從新編寫"how to use"button以下:

1.輸入網址:在URL Seed中輸入爬取的網址,能夠輸入多個網址(缺省爲百度搜索);或者選擇yes按鈕後用Select File按鈕選擇包含多個URL地址的txt文件
2.輸入關鍵詞:在Keyword中輸入便可(缺省爲一般爬取)
3.輸入爬取數:在How Many Pages中輸入便可(完好省,必須爬取)
4.爬取:點擊Start按鈕;爬取開始後能夠暫停Pause和繼續Continue
5.分析:點擊Analyze按鈕呈現網頁分佈餅狀圖
PS:
1.運行本爬蟲軟件須要鏈接指定服務器,服務器不是全天開啓的,不鏈接服務器本軟件沒法正確運行。
2.本爬蟲軟件具備關鍵字搜索功能,而且能夠展現爬取過程。
3.Keyword關鍵字搜索,能夠經過輸入關鍵字對爬取的網頁進行過濾處理,只爬取帶有關鍵字的網頁(並進行排序,獲得根據熱度排列的相對最優結果);
4.因爲爬取速度有限,建議爬取網頁的數量不要輸入太多。
5.當爬取成功網頁數達到How Many Pages中輸入的網頁數量時,爬取過程將會中止。
6.analyze中的餅狀圖是對服務器中存有的全部網頁進行分類分析;條形圖是本次爬取中根據熱度排列的結果。

c.or you can select the file按鈕應放在第二模塊的位置,即放在URL seed 下面,同時更名爲or select the URL file(txt)。改動理由是這個模塊與URL seed模塊功能是一致的,同時其名字也應直接顯示其功能

d.應統一全部按鈕說明的單詞寫法,所有改成每一個單詞首字母大寫。URL seed-> URL Seed,keyword->Keyword,how many pages->How Many Pages等

 

3、可靠性與安全性測試(測試人:李桐)

一、bug記錄與描述:無

2 可靠性與安全性測試結果記錄:

測試內容 要求 測試結果
爬取內容實時下載 在爬蟲程序意外或者人爲中斷時,已經爬取到的HTML內容已經保存 實現
掉電 客戶機掉電或強行關機後重啓機器,不丟失數據。 實現
爬取內容找回 在乎外刪除或者人爲刪除爬取到的HTML內容時,能經過某些途徑實時找回 未實現

安全性:

測試內容 要求 測試結果
數據庫安全性 數據庫對於用戶而言僅有查詢的權限而沒有修改、刪除等權限 實現
爬取到的信息的安全性 所爬取到的信息放在特定的路徑內,只有指定用戶能夠提取 實現

 

綜述與一些話:

  咱們沒有進行bug bash。由於已經明確了分工與流程,咱們「測試---反饋---修正」執行的也比較好,bug在不斷地被發現並被更正,因此PM李桐認爲並無組織bug bash的必要。並且週末和最近一段時間咱們在與C705組在解決數據庫的鏈接問題,比較忙,因此沒有進行bug bash,但願老師理解。  

  咱們沒有"Scenario testing",由於咱們用戶只有c705一組。。

  咱們也沒作矩陣測試,由於只有這一個服務器一個數據庫。。

  總之,咱們的alpha版本項目圓滿完成,等待老師的驗收。

  還有bug仍然存在,咱們會在beta版本中繼續完善咱們的項目。

相關文章
相關標籤/搜索