原本應該昨天來作這個的,可是Cindy有了一個新的東西讓我去作。url
Solr上面的跑SUDU的Crawler被block掉了,估計是常常爬取數據,被屏蔽了,Cindy姐說SUDU那邊只要訪問的是Linux的機子就都會被block掉了,說到這裏,忽然想到,能夠在請求頭修改咱們這邊的系統的信息嗎,就是僞造,到時候去查查看。而後Cindy姐要去看看ssm的SUDU,裏面原先是用HttpClient來爬取數據的,看改用selenium能不能爬到數據。對象
而後我就去看了,發現大多數route裏面用的都是httpclient的方式,而我以前自學的也是用的httpclient。百度了一下,selenium是模擬用戶操做的而已,來完成一些操做,比較主要的功能就是獲取動態網頁的數據,就譬如,你在百度圖片裏面,剛打開的時候,是隻會顯示一部分圖片的,只有當你有往下拉的操做的時候,纔會加載出後面的圖片。你用普通的方式爬,就只能爬到剛開始顯示出來的數據。可是用selenium就能實現這個滾動的功能,好像有方法,是能夠模擬滾動的,並且我也看到了其餘的方法,能夠實現點擊和其餘的動做。繼承
我新建了一個類,繼承了原先那些crawler要繼承的東西,由於要返回跟以前同樣的東西嘛。傳進來跟之前同樣的數據,只是我不對他進行處理,直接,模仿寫vessel的方式,調用以前的方法聲明瞭一個WebDriver對象,傳url進去,getPageSource返回源碼,放在log裏面。commit,發送請求,成功。圖片
原本今天想繼續完成QA裏面在Excel加多幾欄的需求的,剛剛Cindy要我把SUDU換成selenium的方式,哈哈哈哈。臥槽,這個有點難吧,雖然好像也不是很難,哈哈哈,但仍是比寫QA要難吧我以爲,這個真的就是後臺的東西,慢慢來咯,QA的東西只能先放放了。get
那就這樣吧,到時候開始作了再寫寫一些新心得體會。源碼
感受又沒寫什麼,可是碼了這麼多刪掉有點惋惜。後面寫QA的時候再繼續往下寫吧。selenium
和狗子一塊兒成爲更好的人。it