今日內容:京東網站的爬取css
詳細代碼:python
from selenium import webdriver # 導入鍵盤Keys from selenium.webdriver.common.keys import Keys import time driver = webdriver.Chrome() # 檢測代碼塊 try: # 隱式等待,等待標籤加載 driver.implicitly_wait(10) # 往京東主頁發送請求 driver.get('https://www.jd.com/') # 經過id查找input輸入框 input_tag = driver.find_element_by_id('key') # send_keys爲當前標籤傳值 input_tag.send_keys('中華字典') # 按鍵盤的回車鍵 input_tag.send_keys(Keys.ENTER) time.sleep(3) ''' 爬取京東商品信息: 公仔 名稱 url 價格 評價 ''' # element 找一個 # elements 找多個 # 查找全部的商品列表 good_list = driver.find_elements_by_class_name('gl-item') # print(good_list) # 循環遍歷每個商品 for good in good_list: # 經過屬性選擇器查找商品詳情頁url # url good_url = good.find_element_by_css_selector('.p-img a').get_attribute('href') print(good_url) # 名稱 good_name = good.find_element_by_css_selector('.p-name em').text print(good_name) # 價格 good_price = good.find_element_by_class_name('p-price').text print(good_price) # 評價數 good_commit = good.find_element_by_class_name('p-commit').text print(good_commit) str1 = f''' url: {good_url} 名稱: {good_name} 價格: {good_price} 評價: {good_commit} \n ''' # 把商品信息寫入文本中 with open('jd.txt', 'a', encoding='utf-8') as f: f.write(str1) time.sleep(10) # 捕獲異常 except Exception as e: print(e) # 最後都會把驅動瀏覽器關閉掉 finally: driver.close()
總結:一週的課程結束了,總的來講學會了爬蟲的基本操做,仍是挺不錯的。python也是個很方便的軟件,之後但願能夠更深刻的瞭解!web