day02

時間 2019-11-13

標籤 day02 day 简体版

原文原文鏈接

昨日回顧:
一爬蟲基本原理
- 爬蟲全過程
1.發送請求
2.接收響應數據
3.解析並提取有價值的數據
4.保存數據css

二 Requests請求庫
- get
url
headers
cookieshtml

- post
url
headers
cookies
data
三爬取校花網視頻
1.經過主頁解析提取詳情頁
2.經過詳情頁提取視頻url
3.獲取視頻的二進制流寫入本地python

四自動登陸github
1.分析請求頭與請求體信息
- 用戶名
- 密碼
- token
- 雜七雜八git

2.token
- 經過對login頁面的解析提取github

3.對session_url發送請求
- headers:
- user-agentweb

- cookies:
- login頁面的cookieschrome

- data:
- form_datanpm

今日內容:windows

一 requests請求庫爬取豆瓣電影信息
- 請求url
https://movie.douban.com/top250瀏覽器

- 請求方式
GET

- 請求頭
user-agent
cookies

二 selenium請求庫
一、什麼是selenium？
期初是一個自動化測試工具，原理是驅動
瀏覽器執行一些必定好的操做。爬蟲本質
上就是模擬瀏覽器，因此可使用它來作爬蟲。

二、爲何要使用selenium？
優勢:
- 執行js代碼
- 不須要分析複雜的通訊流程
- 對瀏覽器作彈窗、下拉等操做
- ***** 獲取動態數據
- *** 破解登陸驗證

缺點:
- 執行效率低

三、安裝與使用
1. 安裝selenium請求庫:
pip3 install selenium

2. 必須安裝瀏覽器
"谷歌"或者火狐

3.安裝瀏覽器驅動
http://npm.taobao.org/mirrors/chromedriver/2.38/
windows:
下載win32驅動

'''
項目一：爬取豆瓣電影信息:
    電影排名、電影名稱、電影url、電影導演
    電影主演、電影年份、電影類型
    電影評分、電影評論、電影簡介
    
一、分析全部主頁的url
第一頁:
https://movie.douban.com/top250?start=0&filter=
第二頁:
https://movie.douban.com/top250?start=25&filter=
第三頁:
https://movie.douban.com/top250?start=50&filter=

'''

import requests
import re
# 爬蟲三部曲
# 一、發送請求
def get_page(url):
    response = requests.get(url)
    # print(response.text)
    return response


# 二、解析數據
def parse_index(html):
    ''''''
    '''
    電影排名、電影url、電影名稱、電影導演、電影主演
    電影年份/電影類型、電影評分、電影評論、電影簡介
    <div class="item">.*?<em class="">(.*?)</em>.*?<a href="(.*?)">
    .*?<span class="title">(.*?)</span>.*?導演: (.*?)主演: (.*?)<br>(.*?)</p>
    .*?<span class="rating_num".*?>(.*?)</span>.*?<span>(.*?)人評價</span>
    .*?<span class="inq">(.*?)</span>
    
    <div class="item">.*?<em class="">(.*?)</em>.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?導演: (.*?)主演: (.*?)<br>(.*?)</p>.*?<span class="rating_num".*?>(.*?)</span>.*?<span>(.*?)人評價</span>.*?<span class="inq">(.*?)</span>
    '''
    movie_list = re.findall('<div class="item">.*?<em class="">(.*?)</em>.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?導演: (.*?)主演: (.*?)<br>(.*?)</p>.*?<span class="rating_num".*?>(.*?)</span>.*?<span>(.*?)人評價</span>.*?<span class="inq">(.*?)</span>',
               html,
               re.S)

    return movie_list

# 三、保存數據
def save_data(movie):
    # 電影排名、電影url、電影名稱、電影導演、電影主演
    # 電影年份 / 電影類型、電影評分、電影評論、電影簡介
    top, m_url, name, daoyan, actor, year_type, \
    point, commit, desc = movie
    year_type = year_type.strip('\n')
    data = f'''
                ======== 歡迎尊敬官人觀賞 ========
                        電影排名:{top}
                        電影url:{m_url}
                        電影名稱:{name}
                        電影導演:{daoyan}
                        電影主演:{actor}
                        年份類型:{year_type}
                        電影評分:{point}
                        電影評論:{commit}
                        電影簡介:{desc}
                ======== 請官人下次再來喲 ========
                \n
                \n
                '''
    print(data)

    with open('douban_top250.txt', 'a', encoding='utf-8') as f:
        f.write(data)

    print(f'電影: {name} 寫入成功...')

if __name__ == '__main__':
    # 拼接全部主頁
    num = 0
    for line in range(10):
        url = f'https://movie.douban.com/top250?start={num}&filter='
        num += 25
        print(url)

        # 1.往每一個主頁發送請求
        index_res = get_page(url)

        # 2.解析主頁獲取電影信息
        movie_list = parse_index(index_res.text)

        for movie in movie_list:
            # print(movie)

            # 3.保存數據
            save_data(movie)

項目二：02selenium基本使用

from selenium import webdriver  # web驅動
from selenium.webdriver.common.by import By  # 按照什麼方式查找，By.ID,By.CSS_SELECTOR
from selenium.webdriver.common.keys import Keys  # 鍵盤按鍵操做
from selenium.webdriver.support import expected_conditions as EC  # 和下面WebDriverWait一塊兒用的
from selenium.webdriver.support.wait import WebDriverWait  # 等待頁面加載某些元素
import time

import time

# 方式一: 經過驅動打開瀏覽器
# driver = webdriver.Chrome(r'驅動的絕對路徑/webdriver.exe')

# 方式二: 把webdriver.exe驅動放到 python解釋器安裝目錄/Scripts文件夾中
# python解釋器安裝目錄/Scripts配置環境變量
# python解釋器安裝目錄 配置環境變量
driver = webdriver.Chrome()

try:

    driver.get('https://www.jd.com/')

    # 獲取顯式等待對象10秒
    # 能夠等待某個標籤加載10秒
    wait = WebDriverWait(driver, 10)

    # 查找元素id爲key
    input_tag = wait.until(EC.presence_of_element_located(
        (By.ID, 'key')
    ))

    time.sleep(5)
            
    # 在輸入框內輸入商品名稱
    input_tag.send_keys('公仔')

    # 按下鍵盤迴車鍵
    input_tag.send_keys(Keys.ENTER)


    time.sleep(20)

finally:
    # 關閉瀏覽器釋放操做系統資源
    driver.close()

項目三：selenium選擇器

''''''
from selenium import webdriver  # web驅動
from selenium.webdriver.common.keys import Keys  # 鍵盤按鍵操做
import time

import time

driver = webdriver.Chrome()

try:

    # 隱式等待: 須要在get以前調用
    # 等待任意元素加載10秒
    driver.implicitly_wait(10)

    driver.get('https://www.baidu.com/')

    # 顯式等待: 須要在get以後調用
    time.sleep(5)

    '''
    ===============全部方法===================
        element是查找一個標籤
        elements是查找全部標籤
    '''
    # 自動登陸百度 start
    # 一、find_element_by_link_text # 經過連接文本去找
    login_link = driver.find_element_by_link_text('登陸')
    login_link.click()  # 點擊登陸

    time.sleep(1)

    # 二、find_element_by_id # 經過id去找
    user_login = driver.find_element_by_id('TANGRAM__PSP_10__footerULoginBtn')
    user_login.click()

    time.sleep(1)

    # 三、find_element_by_class_name
    user = driver.find_element_by_class_name('pass-text-input-userName')
    user.send_keys('*****')

    # 四、find_element_by_name
    pwd = driver.find_element_by_name('password')
    pwd.send_keys('*****')

    submit = driver.find_element_by_id('TANGRAM__PSP_10__submit')
    submit.click()
    # end

    # 五、find_element_by_partial_link_text
    # 局部連接文本查找
    login_link = driver.find_element_by_partial_link_text('登')
    login_link.click()

    # 六、find_element_by_css_selector
    # 根據屬性選擇器查找元素
    # .: class
    # #: id
    login2_link = driver.find_element_by_css_selector('.tang-pass-footerBarULogin')
    login2_link.click()

    # 七、find_element_by_tag_name
    div = driver.find_elements_by_tag_name('div')
    print(div)


    time.sleep(20)

finally:
    # 關閉瀏覽器釋放操做系統資源
    driver.close()

相關標籤/搜索

day02

day01+day02

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。