模擬登錄淘寶網爬取商品數據


 

1.由於咱們要去模擬人爲去登錄搜索商品,因此這裏先導入webdriver,設置瀏覽器驅動對象。以後再獲取淘寶網登錄界面的url地址。web

 

 

 

 

 

 


 

2.進入到登錄界面後,咱們使用xpath定位到帳號輸入框和密碼輸入框 以及登陸按鈕,這裏在各節點後設置時間等待,避免驗證過快。登陸事後顯示的界面是個人首頁,而首要網站淘寶網首頁,因此咱們再設置一個跳轉,跳轉到首頁瀏覽器

 

 

 

 

 

 

 

 


3.這樣就進入到了淘寶網首頁,接下來就能夠開始爬取商品數據了。使用xpath定位到搜索框和搜索按鈕,輸入咱們要搜索的商品數據,點擊搜索。函數

 

 

 

 

 

 

 


 

4.這裏舉例搜索商品名稱」冰箱」。搜索出來的商品有100頁以上的數據,定義一個url,xpath定位到100數值處,使用正則定位匹配數值。再定義一個翻頁函數,第一頁搜索出來的商品數據佔100頁其中一頁,因此頁碼數翻99次進行爬取。以後定義隱式等待,等待10秒時間加載頁面,若是超出時間報錯timeout。若是不作這項步驟的話,網頁其餘數據沒有加載出來,爬取到的數據就會出現亂碼重複格式。網站

 

 

 

 


 

 

 

5.前面提到要模擬人爲操做去爬取數據,就是說爬取的數據不能太快,即下拉滑動條的速度。因此定義下拉滑動條,設置它爲每1秒鐘下拉滑動一次,直至數據加載完成。再用js去執行操做。url

 

 

 

 

 


 

6.接下來最後一步獲取商品數據,使用xpath定位獲取商品名稱,價格,付款人數,商品圖片地址,商店名稱,最後保存到txt文本中,輸出爬取成功spa

 

 

 

 

爬取數據展現:對象

 

相關文章
相關標籤/搜索