Day03 爬蟲基礎

今日內容:
    一 爬蟲原理
    二 Requests請求庫
 
 
一 爬蟲原理
    1.什麼是互聯網?
        指的是由一堆網絡設備,把一臺臺的計算機互聯網到一塊兒稱之爲互聯網。
    2.互聯網創建的目的?
        互聯網創建的目的是爲了數據的傳遞以及數據的共享。
    3.什麼是數據?
        例如淘寶、京東商品信息等...
        東方財富、雪球網的一些證券投資信息...
        鏈家、自如等房源信息....
        12306的票務信息...
    4.上網的全過程:
        - 普通用戶:
            打開瀏覽器 ——> 往目標站點發送請求 ——> 獲取響應數據 ——> 渲染到瀏覽器中
        - 爬蟲程序:
            模擬瀏覽器 ——> 往目標站點發送請求 ——> 獲取響應數據 ——> 提取有價值的數據 ——> 持久化到數據中

    5.瀏覽器發送的是什麼請求?
        http協議的請求。
        - 客戶端:
            瀏覽器是一個軟件 --> 客戶端的 IP 和 端口

        - 服務端
            https://www.jd.com/
            www.jd.com(京東域名)-> DNS解析 -> 京東服務端的 IP 和 端口
        客戶端的ip和端口  ------> 服務端的 IP 和 端口 發送請求能夠創建連接獲取相應數據。

    6.爬蟲的全過程
        - 發送請求   (須要請求庫: Requests請求庫、Selenium請求庫)
# 往百度主頁發送請求,獲取響應對象
response = requests.get(url='https://www.baidu.com/')

 

        - 獲取響應數據  (只要往服務器發送請求,請求經過後會返回響應數據)
# 設置字符編碼爲 utf-8
response.encoding = 'utf-8'

 

        - 解析並提取數據(須要解析庫: re、BeautifulSoup四、Xpath...)
# 打印響應文本
print(response.text)

 

        - 保存到本地    (文件處理、數據庫、MongoDB存儲庫)
# 把響應文本寫入本地
with open('baidu.html', 'w', encoding='utf-8') as f:
    f.write(response.text)

 


二 Requests請求庫
    1.安裝與使用
        - 打開cmd
        - 輸入: pip3 install requests
    2.爬取視頻

    3.抓包分析
        打開瀏覽器的開發者模式(檢查)----> 選中network
        找到訪問的頁面後綴 xxx.html(響應文本)
        1)請求url(訪問的網站地址)
        2)請求方式:
            GET:
                直接發送請求獲取數據
                https://www.cnblogs.com/kermitjam/articles/9692597.html
            POST:
                須要攜帶用戶信息往目標地址發送請求
                https://www.cnblogs.com/login
        3) 響應狀態碼:
            2xx: 成功
            3xx: 重定向
            4xx: 找不到資源
            5xx: 服務器錯誤
        4) 請求頭信息:
            User-Agent: 用戶代理(證實是經過電腦設備及瀏覽器發送的請求)
            Cookies: 登陸用戶真實信息(證實你目標網站的用戶)
            Referer: 上一次訪問的url (證實你是從目標網站跳轉過來的)
        5)請求體:
            POST請求才會有請求體。
            Form Data
                {
                    'user': 'tank',
                    'pwd': '123'
                }

四 爬取豆瓣電影
    .: 從當前位置開始
    *: 查找全部
    ?: 找到第一個不找
    .*?: 非貪婪匹配
    .*: 貪婪匹配
    (.*?): 提取括號內的數據
相關文章
相關標籤/搜索