舊的HDMU被block,換成官網從新寫一個新的,換成官網之後能夠發現整個爬蟲的效率都變慢不少。畢竟是由於是模擬瀏覽器,瀏覽器打開官網要加載許多用不上的東西,就致使整個加載速度很慢,能夠了解不少爬蟲可能只是訪問原先網站一個必要的iframe或則其餘的,能夠大大加速爬蟲的效率。瀏覽器
在用selenium爬取官網中的信息時,在進行location定位的時候一直出現timeout的問題,能夠肯定的是xpath的定位是絕對沒有錯的。網站
後來發現是在selenium中,要定位frame中的元素的話,是要用方法跳轉到frame中進行跳轉才能夠進行定位。this
如圖示:cdn
要獲取到1號frame中的元素,必須用WebDriver中的.driver.switchTo().frame(By location)進行切換,必需要注意的是,切換到frame中就只能對frame中的元素進行操做,如sendkey,click,進行wait判斷時若是判斷的是frame外的元素的話,也會報timeout的錯誤。blog
若是已經進到frame中,想要定位frame外的元素,要用this.driver.switchTo().parentFrame()切換到frame外。iframe