Python爬蟲之獲取淘寶商品信息

時間 2020-05-26

原文原文鏈接

爬取淘寶信息數據

首先須要先導入webdrivercss

from selenium import webdriver
複製代碼

webdriver支持主流的瀏覽器，好比說：谷歌瀏覽器、火狐瀏覽器、IE瀏覽器等等html

而後能夠建立一個webdriver對象，經過這個對象就能夠經過get方法請求網站python

driver = webdriver.Chrome()	# 建立driver對象
driver.get('https://www.baidu.com')	# 請求百度
複製代碼

接下來能夠定義一個方法：search_productgit

1、selenium的簡單介紹

1.selenium簡介

selenium是一個用於測試網站的自動化測試工具，支持不少主流的瀏覽器，好比：谷歌瀏覽器、火狐瀏覽器、IE、Safari等。github

2.支持多個操做系統

如windows、Linux、IOS、Android等。web

三、安裝selenium

打開終端輸入chrome

pip install Selenium
複製代碼

四、安裝瀏覽器驅動

一、Chrome驅動文件下載：點擊下載谷歌瀏覽器驅動windows

二、火狐瀏覽器驅動文件下載：點擊下載geckodriverapi

五、配置環境變量

配置環境變量的方法很是簡單，首先將下載好的驅動進行解壓，放到你安裝Python的目錄下，便可。瀏覽器

由於以前，在配置Python環境變量的時候，就將Python的目錄放到個人電腦–>屬性–>系統設置–>高級–>環境變量–>系統變量–>Path

2、selenium快速入門

一、selenium提供8種定位方式

一、id

二、name

三、class name

四、tag name

五、link text

六、partial link text

七、xpath

八、css selector

二、定位元素的8中方式詳解

定義一個元素	定位多個元素	含義
find_element_by_id	find_elements_by_id	經過元素的id定位
find_element_by_name	find_elements_by_name	經過元素name定位
find_element_by_xpath	find_elements_by_xpath	經過xpath表達式定位
find_element_by_link_text	find_elements_by_link_text	經過完整超連接定位
find_element_by_partial_link_text	find_elements_by_partial_link_text	經過部分連接定位
find_element_by_tag_name	find_elements_by_tag_name	經過標籤訂位
find_element_by_class_name	find_elements_by_class_name	經過類名進行定位
find_element_by_css_selector	find_elements_by_css_selector	經過css選擇器進行定位

三、selenium庫下webdriver模塊經常使用的方法與使用

控制瀏覽器的一些方法

方法	說明
set_window_size()	設置瀏覽器的大小
back()	控制瀏覽器後退
forward()	控制瀏覽器前進
refresh()	刷新當前頁面
clear()	清除文本
send_keys (value)	模擬按鍵輸入
click()	單擊元素
submit()	用於提交表單
get_attribute(name)	獲取元素屬性值
text	獲取元素的文本

四、代碼實例

from selenium import webdriver
import time

# 建立Chrome瀏覽器對象，這會在電腦中打開一個窗口
browser = webdriver.Chrome()

# 經過瀏覽器向服務器發起請求
browser.get('https://www.baidu.com')

time.sleep(3)

# 刷新瀏覽器
browser.refresh()

# 最大化瀏覽器窗口
browser.maximize_window()

# 設置連接內容
element = browser.find_element_by_link_text('抗擊肺炎')

# 點擊'抗擊肺炎'
element.click()

複製代碼

關於selenium的簡單介紹就先到這裏了，更多詳細內容你們能夠去selenium官方文檔查看。點擊查看selenium官方文檔

爬取淘寶數據

從上圖，能夠看到須要獲取的信息是：價格、商品名稱、付款人數、店鋪名稱。

如今咱們開始進入主題。

首先，須要輸入你要搜索商品的內容，而後根據內容去搜索淘寶信息，最後提取信息並保存。

一、搜素商品

我在這裏定義提個搜索商品的函數和一個主函數。

搜索商品

在這裏須要建立一個瀏覽器對象，而且根據該對象的get方法來發送請求。

從上圖能夠發現搜索框的 id值爲q，那麼這樣就簡單不少了，有HTML基礎的朋友確定知道id值是惟一的。

經過id值能夠獲取到文本框的位置，並傳入參數，而後點擊搜索按鈕。

從上圖能夠發現搜索按鈕在一個類裏面，那麼能夠經過這個類來定位到搜索按鈕，並執行點擊操做。

當點擊搜索按鈕以後，網頁便會跳轉到登陸界面，要求咱們登陸，以下圖所示：

登陸成功後會發現，裏面的數據總共有100頁面。

上圖是前三頁的url地址，你會發現其實並無太大的變化，通過測試發現，真正有效的參數是框起來的內容，它的變化會致使頁面的跳轉，很明顯第一頁的s=0，第二頁s=44，第三頁s=88，以此類推，以後就能夠輕鬆作到翻頁了。

搜搜商品的代碼以下：

def search_product(key_word):
    ''' :param key_word: 搜索關鍵字 :return: '''
    # 經過id值來獲取文本框的位置，並傳入關鍵字
    browser.find_element_by_id('q').send_keys(key_word)
    # 經過class來獲取到搜索按鈕的位置，並點擊
    browser.find_element_by_class_name('btn-search').click()
    # 最大化窗口
    browser.maximize_window()

    time.sleep(15)
    page = browser.find_element_by_xpath('//div[@class="total"]').text  # 共 100 頁，

    page = re.findall('(\d+)', page)[0] # findall返回一個列表
    return page
複製代碼

二、獲取商品信息並保存

獲取商品信息相對比較簡單，能夠經過xpath方式來獲取數據。在這裏我就不在論述。在這邊我建立了一個函數get_product來獲取並保存信息。在保存信息的過程當中使用到了csv模塊，目的是將信息保存到csv裏面。

def get_product():
    divs = driver.find_elements_by_xpath('//div[@class="items"]/div[@class="item J_MouserOnverReq "]')	# 這裏返回的是列表，注意：elements
    for div in divs:
        info = div.find_element_by_xpath('.//div[@class="row row-2 title"]/a').text
        price = div.find_element_by_xpath('.//strong').text + '元'
        nums = div.find_element_by_xpath('.//div[@class="deal-cnt"]').text
        names = div.find_element_by_xpath('.//div[@class="shop"]/a').text
        print(info, price, nums, names,sep='|')
        with open('data3.csv', mode='a', newline='', encoding='utf-8') as file:
            csv_writer = csv.writer(file, delimiter=',')    # 指定分隔符爲逗號
            csv_writer.writerow([info, price, nums, names])
複製代碼

三、構造URL實現翻頁爬取

從上面的圖片中能夠發現連續三頁URL的地址，其實真正變化並非不少，通過測試發現，只有q和s兩個參數是有用的。

構造出的url：s.taobao.com/search?q={}…

由於q是你要搜索的商品，s是設置翻頁的參數。這段代碼就放在了主函數裏面

def main():
    browser.get('https://www.taobao.com/')  # 向服務器發送請求
    page = search_product(key_word)
    print('正在爬取第1頁的數據')
    get_product()   # 已經得到第1頁的數據
    page_nums = 1
    while page_nums != page:
        print('*'*100)
        print('正在爬取第{}頁的數據'.format(page_nums+1))
        browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word, page_nums*44))
        browser.implicitly_wait(10) # 等待10秒
        get_product()
        page_nums += 1
複製代碼