首先須要先導入webdrivercss
from selenium import webdriver
複製代碼
webdriver支持主流的瀏覽器,好比說:谷歌瀏覽器、火狐瀏覽器、IE瀏覽器等等html
而後能夠建立一個webdriver對象,經過這個對象就能夠經過get方法請求網站python
driver = webdriver.Chrome() # 建立driver對象
driver.get('https://www.baidu.com') # 請求百度
複製代碼
接下來能夠定義一個方法:search_productgit
selenium是一個用於測試網站的自動化測試工具,支持不少主流的瀏覽器,好比:谷歌瀏覽器、火狐瀏覽器、IE、Safari等。github
如windows、Linux、IOS、Android等。web
打開終端輸入chrome
pip install Selenium
複製代碼
一、Chrome驅動文件下載:點擊下載谷歌瀏覽器驅動windows
二、火狐瀏覽器驅動文件下載:點擊下載geckodriverapi
配置環境變量的方法很是簡單,首先將下載好的驅動進行解壓,放到你安裝Python的目錄下,便可。瀏覽器
由於以前,在配置Python環境變量的時候,就將Python的目錄放到個人電腦–>屬性–>系統設置–>高級–>環境變量–>系統變量–>Path
一、id
二、name
三、class name
四、tag name
五、link text
六、partial link text
七、xpath
八、css selector
定義一個元素 | 定位多個元素 | 含義 |
---|---|---|
find_element_by_id | find_elements_by_id | 經過元素的id定位 |
find_element_by_name | find_elements_by_name | 經過元素name定位 |
find_element_by_xpath | find_elements_by_xpath | 經過xpath表達式定位 |
find_element_by_link_text | find_elements_by_link_text | 經過完整超連接定位 |
find_element_by_partial_link_text | find_elements_by_partial_link_text | 經過部分連接定位 |
find_element_by_tag_name | find_elements_by_tag_name | 經過標籤訂位 |
find_element_by_class_name | find_elements_by_class_name | 經過類名進行定位 |
find_element_by_css_selector | find_elements_by_css_selector | 經過css選擇器進行定位 |
方法 | 說明 |
---|---|
set_window_size() | 設置瀏覽器的大小 |
back() | 控制瀏覽器後退 |
forward() | 控制瀏覽器前進 |
refresh() | 刷新當前頁面 |
clear() | 清除文本 |
send_keys (value) | 模擬按鍵輸入 |
click() | 單擊元素 |
submit() | 用於提交表單 |
get_attribute(name) | 獲取元素屬性值 |
text | 獲取元素的文本 |
from selenium import webdriver
import time
# 建立Chrome瀏覽器對象,這會在電腦中打開一個窗口
browser = webdriver.Chrome()
# 經過瀏覽器向服務器發起請求
browser.get('https://www.baidu.com')
time.sleep(3)
# 刷新瀏覽器
browser.refresh()
# 最大化瀏覽器窗口
browser.maximize_window()
# 設置連接內容
element = browser.find_element_by_link_text('抗擊肺炎')
# 點擊'抗擊肺炎'
element.click()
複製代碼
關於selenium的簡單介紹就先到這裏了,更多詳細內容你們能夠去selenium官方文檔查看。點擊查看selenium官方文檔
從上圖,能夠看到須要獲取的信息是:價格、商品名稱、付款人數、店鋪名稱。
如今咱們開始進入主題。
首先,須要輸入你要搜索商品的內容,而後根據內容去搜索淘寶信息,最後提取信息並保存。
我在這裏定義提個搜索商品的函數和一個主函數。
在這裏須要建立一個瀏覽器對象,而且根據該對象的get方法來發送請求。
從上圖能夠發現搜索框的 id值爲q,那麼這樣就簡單不少了,有HTML基礎的朋友確定知道id值是惟一的。經過id值能夠獲取到文本框的位置,並傳入參數,而後點擊搜索按鈕。
從上圖能夠發現搜索按鈕在一個類裏面,那麼能夠經過這個類來定位到搜索按鈕,並執行點擊操做。
當點擊搜索按鈕以後,網頁便會跳轉到登陸界面,要求咱們登陸,以下圖所示:
登陸成功後會發現,裏面的數據總共有100頁面。 上圖是前三頁的url地址,你會發現其實並無太大的變化,通過測試發現,真正有效的參數是框起來的內容,它的變化會致使頁面的跳轉,很明顯第一頁的s=0,第二頁s=44,第三頁s=88,以此類推,以後就能夠輕鬆作到翻頁了。搜搜商品的代碼以下:
def search_product(key_word):
''' :param key_word: 搜索關鍵字 :return: '''
# 經過id值來獲取文本框的位置,並傳入關鍵字
browser.find_element_by_id('q').send_keys(key_word)
# 經過class來獲取到搜索按鈕的位置,並點擊
browser.find_element_by_class_name('btn-search').click()
# 最大化窗口
browser.maximize_window()
time.sleep(15)
page = browser.find_element_by_xpath('//div[@class="total"]').text # 共 100 頁,
page = re.findall('(\d+)', page)[0] # findall返回一個列表
return page
複製代碼
獲取商品信息相對比較簡單,能夠經過xpath方式來獲取數據。在這裏我就不在論述。在這邊我建立了一個函數get_product來獲取並保存信息。在保存信息的過程當中使用到了csv模塊,目的是將信息保存到csv裏面。
def get_product():
divs = driver.find_elements_by_xpath('//div[@class="items"]/div[@class="item J_MouserOnverReq "]') # 這裏返回的是列表,注意:elements
for div in divs:
info = div.find_element_by_xpath('.//div[@class="row row-2 title"]/a').text
price = div.find_element_by_xpath('.//strong').text + '元'
nums = div.find_element_by_xpath('.//div[@class="deal-cnt"]').text
names = div.find_element_by_xpath('.//div[@class="shop"]/a').text
print(info, price, nums, names,sep='|')
with open('data3.csv', mode='a', newline='', encoding='utf-8') as file:
csv_writer = csv.writer(file, delimiter=',') # 指定分隔符爲逗號
csv_writer.writerow([info, price, nums, names])
複製代碼
從上面的圖片中能夠發現連續三頁URL的地址,其實真正變化並非不少,通過測試發現,只有q和s兩個參數是有用的。
構造出的url:s.taobao.com/search?q={}…
由於q是你要搜索的商品,s是設置翻頁的參數。這段代碼就放在了主函數裏面
def main():
browser.get('https://www.taobao.com/') # 向服務器發送請求
page = search_product(key_word)
print('正在爬取第1頁的數據')
get_product() # 已經得到第1頁的數據
page_nums = 1
while page_nums != page:
print('*'*100)
print('正在爬取第{}頁的數據'.format(page_nums+1))
browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word, page_nums*44))
browser.implicitly_wait(10) # 等待10秒
get_product()
page_nums += 1
複製代碼
最後結果,以下圖所示:
若是在這裏你們有不理解的地方能夠向我提出。能夠在文章下方留言,也能夠添加個人微信
你們若是須要獲取源代碼的話能夠關注個人公衆號,在公衆號裏面文章會更加的詳細。
本次爬取淘寶信息的視頻教程已經上傳到了B站,點擊觀看視頻教程裏面有不少的爬蟲視頻和web安全滲透的視頻,歡迎你們觀看並留言!!
好了,又到了該說再見的時候了,但願個人文章能夠給你帶來知識,帶給你幫助。同時也感謝你能夠抽出你寶貴的時間來閱讀,創做不易,若是你喜歡的話,點個關注再走吧。更多精彩內容會在後續更新,你的支持就是我創做的動力,我從此也會盡力給你們書寫出更加優質的文章、。