Day 03 爬蟲

時間 2019-12-01

原文原文鏈接

今日內容：
    一 爬蟲原理
    二 Requests請求庫
Day03

一 爬蟲原理
    1.什麼是互聯網？
        指的是由一堆網絡設備，把一臺臺的計算機互聯網到一塊兒稱之爲互聯網。

    2.互聯網創建的目的？
        互聯網創建的目的是爲了數據的傳遞以及數據的共享。

    3.什麼是數據？
        例如淘寶、京東商品信息等...
        東方財富、雪球網的一些證券投資信息...
        鏈家、自如等房源信息....
        12306的票務信息...

    4.上網的全過程:
        - 普通用戶:
            打開瀏覽器 ——> 往目標站點發送請求 ——> 獲取響應數據 ——> 渲染到瀏覽器中

        - 爬蟲程序:
            模擬瀏覽器 ——> 往目標站點發送請求 ——> 獲取響應數據 ——> 提取有價值的數據 ——> 持久化到數據中


    5.瀏覽器發送的是什麼請求？
        http協議的請求。

        - 客戶端:
            瀏覽器是一個軟件 --> 客戶端的 IP 和 端口


        - 服務端
            https://www.jd.com/
            www.jd.com（京東域名）-> DNS解析 -> 京東服務端的 IP 和 端口

        客戶端的ip和端口  ------> 服務端的 IP 和 端口 發送請求能夠創建連接獲取相應數據。


    6.爬蟲的全過程
        - 發送請求   （須要請求庫: Requests請求庫、Selenium請求庫）
        - 獲取響應數據  （只要往服務器發送請求，請求經過後會返回響應數據）
        - 解析並提取數據（須要解析庫: re、BeautifulSoup四、Xpath...）
        - 保存到本地    (文件處理、數據庫、MongoDB存儲庫)


二 Requests請求庫

    1.安裝與使用
        - 打開cmd
        - 輸入: pip3 install requests

    2.爬取視頻


    3.抓包分析
        打開瀏覽器的開發者模式（檢查）----> 選中network
        找到訪問的頁面後綴 xxx.html（響應文本）

        1)請求url（訪問的網站地址）
        2)請求方式：
            GET:
                直接發送請求獲取數據
                https://www.cnblogs.com/kermitjam/articles/9692597.html

            POST:
                須要攜帶用戶信息往目標地址發送請求
                https://www.cnblogs.com/login

        3) 響應狀態碼:
            2xx: 成功
            3xx: 重定向
            4xx: 找不到資源
            5xx: 服務器錯誤

        4) 請求頭信息:
            User-Agent: 用戶代理（證實是經過電腦設備及瀏覽器發送的請求）
            Cookies: 登陸用戶真實信息（證實你目標網站的用戶）
            Referer: 上一次訪問的url （證實你是從目標網站跳轉過來的）

        5)請求體:
            POST請求才會有請求體。
            Form Data
                {
                    'user': 'tank',
                    'pwd': '123'
                }


四 爬取豆瓣電影
    .: 從當前位置開始
    *: 查找全部
    ?: 找到第一個不找

    .*?: 非貪婪匹配
    .*: 貪婪匹配

    (.*?): 提取括號內的數據

    電影排名、電影url、電影名稱、導演-主演-類型、電影評分、評價人數、電影簡介
    <div class="item">.*?<em class="">(.*?)</em>
    .*?<a href="(.*?)">.*?<span class="title">(.*?)</span>
    .*?導演:(.*?)</p>.*?<span class="rating_num".*?>(.*?)</span>
    .*?<span>(.*?)人評價</span>.*?<span class="inq">(.*?)</span>



<div class="item">
<div class="pic">
    <em class="">226</em>
    <a href="https://movie.douban.com/subject/1300374/">
        <img width="100" alt="綠裏奇蹟" src="https://img3.doubanio.com/view/photo/s_ratio_poster/public/p767586451.webp" class="">
    </a>
</div>
<div class="info">
    <div class="hd">
        <a href="https://movie.douban.com/subject/1300374/" class="">
            <span class="title">綠裏奇蹟</span>
                    <span class="title">&nbsp;/&nbsp;The Green Mile</span>
                <span class="other">&nbsp;/&nbsp;綠色奇蹟(臺)  /  綠色英里</span>
        </a>


            <span class="playable">[可播放]</span>
    </div>
    <div class="bd">
        <p class="">
            導演: Frank Darabont&nbsp;&nbsp;&nbsp;主演: 湯姆·漢克斯 Tom Hanks / 大衛·摩斯 David M...<br>
            1999&nbsp;/&nbsp;美國&nbsp;/&nbsp;犯罪 劇情 奇幻 懸疑
        </p>


        <div class="star">
                <span class="rating45-t"></span>
                <span class="rating_num" property="v:average">8.7</span>
                <span property="v:best" content="10.0"></span>
                <span>141370人評價</span>
        </div>

            <p class="quote">
                <span class="inq">天使暫時離開。</span>
            </p>
    </div>
</div>
</div>
導入requests
爬取梨視頻：

'''
視頻選項:
    1.梨視頻
'''
import requests
#
# # 往視頻源地址發送請求
response = requests.get(
    'https://video.pearvideo.com/mp4/adshort/20190625/cont-1570302-14057031_adpkg-ad_hd.mp4')
#
# # 打印二進制流，好比圖片、視頻等數據
print(response.content)
#
# # 保存視頻到本地
with open('視頻.mp4', 'wb') as f:
    f.write(response.content)

'''
一、先往梨視頻主頁發送請求
    https://www.pearvideo.com/
    
    解析獲取全部視頻的id:
        video_1570302
        
        re.findall()
        

二、獲取視頻詳情頁url:
    驚險!男子搶上地鐵滑倒,就腳進去了
    https://www.pearvideo.com/video_1570302
    揭祕坎兒井
    https://www.pearvideo.com/video_1570107
'''
import requests
import re  # 正則，用於解析文本數據
# 一、先往梨視頻主頁發送請求
response = requests.get('https://www.pearvideo.com/')
# print(response.text)

# re正則匹配獲取全部視頻id
# 參數1: 正則匹配規則
# 參數2: 解析文本
# 參數3: 匹配模式
res_list = re.findall('<a href="video_(.*?)"', response.text, re.S)
# print(res_list)

# 拼接每個視頻詳情頁url
for v_id in res_list:
    detail_url = 'https://www.pearvideo.com/video_' + v_id
    # print(detail_url)

    # 對每個視頻詳情頁發送請求獲取視 頻源url
    response = requests.get(url=detail_url)
    # print(response.text)

    # 解析並提取詳情頁視頻url
    # 視頻url
    video_url = re.findall('srcUrl="(.*?)"', response.text, re.S)[0]
    print(video_url)

    # 視頻名稱
    video_name = re.findall(
        '<h1 class="video-tt">(.*?)</h1>', response.text, re.S)[0]

    print(video_name)

    # 往視頻url發送請求獲取視頻二進制流
    v_response = requests.get(video_url)

    with open('%s.mp4' % video_name, 'wb') as f:
        f.write(v_response.content)
        print(video_name, '視頻爬取完成')

爬取豆瓣電影TOP250html

'''
https://movie.douban.com/top250?start=0&filter=
https://movie.douban.com/top250?start=25&filter=
https://movie.douban.com/top250?start=50&filter=

1.發送請求
2.解析數據
3.保存數據
'''
import requests
import re

# 爬蟲三部曲
# 1.發送請求
def get_page(base_url):
    response = requests.get(base_url)
    return response

# 2.解析文本
def parse_index(text):

    res = re.findall('<div class="item">.*?<em class="">(.*?)</em>.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?導演:(.*?)</p>.*?<span class="rating_num".*?>(.*?)</span>.*?<span>(.*?)人評價</span>.*?<span class="inq">(.*?)</span>', text, re.S)
    # print(res)
    return res

# 3.保存數據
def save_data(data):
    with open('douban.txt', 'a', encoding='utf-8') as f:
        f.write(data)

# main + 回車鍵
if __name__ == '__main__':
    # num = 10
    # base_url = 'https://movie.douban.com/top250?start={}&filter='.format(num)

    num = 0
    for line in range(10):
        base_url = f'https://movie.douban.com/top250?start={num}&filter='
        num += 25
        print(base_url)

        # 1.發送請求，調用函數
        response = get_page(base_url)

        # 2.解析文本
        movie_list = parse_index(response.text)

        # 3.保存數據
        # 數據的格式化
        for movie in movie_list:
            # print(movie)

            # 解壓賦值
            # 電影排名、電影url、電影名稱、導演 - 主演 - 類型、電影評分、評價人數、電影簡介
            v_top, v_url, v_name, v_daoyan, v_point, v_num, v_desc = movie
            # v_top = movie[0]
            # v_url = movie[1]
            moive_content = f'''
            電影排名: {v_top}
            電影url: {v_url}
            電影名稱: {v_name}
            導演主演: {v_daoyan}
            電影評分: {v_point}
            評價人數: {v_num}
            電影簡介: {v_desc}
            \n
            '''

            print(moive_content)

            # 保存數據
            save_data(moive_content)

總結：老師教學瞭如何爬取，今日大體掌握了爬取視頻和爬取電影信息等內容。web

1. java爬蟲03
2. Scrapy爬蟲 -- 03
3. python爬蟲Day 01
4. Day 03
5. 爬蟲實例-03
6. 爬蟲_小結03
7. day-03
8. Day - 03
9. PYTHON爬蟲--03--selenium | phantomjs
10. day 03抽象
更多相關文章...
• jQuery Mobile 表單選擇菜單 - jQuery Mobile 教程
• PHP 5 Date/Time 函數 - PHP參考手冊
• JDK13 GA發佈：5大特性解讀
• 爲了進字節跳動，我精選了29道Java經典算法題，帶詳細講解

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。