今日內容:
一 爬蟲原理
二 Requests請求庫
Day03
一 爬蟲原理
1.什麼是互聯網?
指的是由一堆網絡設備,把一臺臺的計算機互聯網到一塊兒稱之爲互聯網。
2.互聯網創建的目的?
互聯網創建的目的是爲了數據的傳遞以及數據的共享。
3.什麼是數據?
例如淘寶、京東商品信息等...
東方財富、雪球網的一些證券投資信息...
鏈家、自如等房源信息....
12306的票務信息...
4.上網的全過程:
- 普通用戶:
打開瀏覽器 ——> 往目標站點發送請求 ——> 獲取響應數據 ——> 渲染到瀏覽器中
- 爬蟲程序:
模擬瀏覽器 ——> 往目標站點發送請求 ——> 獲取響應數據 ——> 提取有價值的數據 ——> 持久化到數據中
5.瀏覽器發送的是什麼請求?
http協議的請求。
- 客戶端:
瀏覽器是一個軟件 --> 客戶端的 IP 和 端口
- 服務端
https://www.jd.com/
www.jd.com(京東域名)-> DNS解析 -> 京東服務端的 IP 和 端口
客戶端的ip和端口 ------> 服務端的 IP 和 端口 發送請求能夠創建連接獲取相應數據。
6.爬蟲的全過程
- 發送請求 (須要請求庫: Requests請求庫、Selenium請求庫)
- 獲取響應數據 (只要往服務器發送請求,請求經過後會返回響應數據)
- 解析並提取數據(須要解析庫: re、BeautifulSoup四、Xpath...)
- 保存到本地 (文件處理、數據庫、MongoDB存儲庫)
二 Requests請求庫
1.安裝與使用
- 打開cmd
- 輸入: pip3 install requests
2.爬取視頻
3.抓包分析
打開瀏覽器的開發者模式(檢查)----> 選中network
找到訪問的頁面後綴 xxx.html(響應文本)
1)請求url(訪問的網站地址)
2)請求方式:
GET:
直接發送請求獲取數據
https://www.cnblogs.com/kermitjam/articles/9692597.html
POST:
須要攜帶用戶信息往目標地址發送請求
https://www.cnblogs.com/login
3) 響應狀態碼:
2xx: 成功
3xx: 重定向
4xx: 找不到資源
5xx: 服務器錯誤
4) 請求頭信息:
User-Agent: 用戶代理(證實是經過電腦設備及瀏覽器發送的請求)
Cookies: 登陸用戶真實信息(證實你目標網站的用戶)
Referer: 上一次訪問的url (證實你是從目標網站跳轉過來的)
5)請求體:
POST請求才會有請求體。
Form Data
{
'user': 'tank',
'pwd': '123'
}
四 爬取豆瓣電影
.: 從當前位置開始
*: 查找全部
?: 找到第一個不找
.*?: 非貪婪匹配
.*: 貪婪匹配
(.*?): 提取括號內的數據
電影排名、電影url、電影名稱、導演-主演-類型、電影評分、評價人數、電影簡介
<div class="item">.*?<em class="">(.*?)</em>
.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>
.*?導演:(.*?)</p>.*?<span class="rating_num".*?>(.*?)</span>
.*?<span>(.*?)人評價</span>.*?<span class="inq">(.*?)</span>
<div class="item">
<div class="pic">
<em class="">226</em>
<a href="https://movie.douban.com/subject/1300374/">
<img width="100" alt="綠裏奇蹟" src="https://img3.doubanio.com/view/photo/s_ratio_poster/public/p767586451.webp" class="">
</a>
</div>
<div class="info">
<div class="hd">
<a href="https://movie.douban.com/subject/1300374/" class="">
<span class="title">綠裏奇蹟</span>
<span class="title"> / The Green Mile</span>
<span class="other"> / 綠色奇蹟(臺) / 綠色英里</span>
</a>
<span class="playable">[可播放]</span>
</div>
<div class="bd">
<p class="">
導演: Frank Darabont 主演: 湯姆·漢克斯 Tom Hanks / 大衛·摩斯 David M...<br>
1999 / 美國 / 犯罪 劇情 奇幻 懸疑
</p>
<div class="star">
<span class="rating45-t"></span>
<span class="rating_num" property="v:average">8.7</span>
<span property="v:best" content="10.0"></span>
<span>141370人評價</span>
</div>
<p class="quote">
<span class="inq">天使暫時離開。</span>
</p>
</div>
</div>
</div>
導入requests
爬取梨視頻:
''' 視頻選項: 1.梨視頻 ''' import requests # # # 往視頻源地址發送請求 response = requests.get( 'https://video.pearvideo.com/mp4/adshort/20190625/cont-1570302-14057031_adpkg-ad_hd.mp4') # # # 打印二進制流,好比圖片、視頻等數據 print(response.content) # # # 保存視頻到本地 with open('視頻.mp4', 'wb') as f: f.write(response.content) ''' 一、先往梨視頻主頁發送請求 https://www.pearvideo.com/ 解析獲取全部視頻的id: video_1570302 re.findall() 二、獲取視頻詳情頁url: 驚險!男子搶上地鐵滑倒,就腳進去了 https://www.pearvideo.com/video_1570302 揭祕坎兒井 https://www.pearvideo.com/video_1570107 ''' import requests import re # 正則,用於解析文本數據 # 一、先往梨視頻主頁發送請求 response = requests.get('https://www.pearvideo.com/') # print(response.text) # re正則匹配獲取全部視頻id # 參數1: 正則匹配規則 # 參數2: 解析文本 # 參數3: 匹配模式 res_list = re.findall('<a href="video_(.*?)"', response.text, re.S) # print(res_list) # 拼接每個視頻詳情頁url for v_id in res_list: detail_url = 'https://www.pearvideo.com/video_' + v_id # print(detail_url) # 對每個視頻詳情頁發送請求獲取視 頻源url response = requests.get(url=detail_url) # print(response.text) # 解析並提取詳情頁視頻url # 視頻url video_url = re.findall('srcUrl="(.*?)"', response.text, re.S)[0] print(video_url) # 視頻名稱 video_name = re.findall( '<h1 class="video-tt">(.*?)</h1>', response.text, re.S)[0] print(video_name) # 往視頻url發送請求獲取視頻二進制流 v_response = requests.get(video_url) with open('%s.mp4' % video_name, 'wb') as f: f.write(v_response.content) print(video_name, '視頻爬取完成')
爬取豆瓣電影TOP250html
''' https://movie.douban.com/top250?start=0&filter= https://movie.douban.com/top250?start=25&filter= https://movie.douban.com/top250?start=50&filter= 1.發送請求 2.解析數據 3.保存數據 ''' import requests import re # 爬蟲三部曲 # 1.發送請求 def get_page(base_url): response = requests.get(base_url) return response # 2.解析文本 def parse_index(text): res = re.findall('<div class="item">.*?<em class="">(.*?)</em>.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?導演:(.*?)</p>.*?<span class="rating_num".*?>(.*?)</span>.*?<span>(.*?)人評價</span>.*?<span class="inq">(.*?)</span>', text, re.S) # print(res) return res # 3.保存數據 def save_data(data): with open('douban.txt', 'a', encoding='utf-8') as f: f.write(data) # main + 回車鍵 if __name__ == '__main__': # num = 10 # base_url = 'https://movie.douban.com/top250?start={}&filter='.format(num) num = 0 for line in range(10): base_url = f'https://movie.douban.com/top250?start={num}&filter=' num += 25 print(base_url) # 1.發送請求,調用函數 response = get_page(base_url) # 2.解析文本 movie_list = parse_index(response.text) # 3.保存數據 # 數據的格式化 for movie in movie_list: # print(movie) # 解壓賦值 # 電影排名、電影url、電影名稱、導演 - 主演 - 類型、電影評分、評價人數、電影簡介 v_top, v_url, v_name, v_daoyan, v_point, v_num, v_desc = movie # v_top = movie[0] # v_url = movie[1] moive_content = f''' 電影排名: {v_top} 電影url: {v_url} 電影名稱: {v_name} 導演主演: {v_daoyan} 電影評分: {v_point} 評價人數: {v_num} 電影簡介: {v_desc} \n ''' print(moive_content) # 保存數據 save_data(moive_content)
總結:老師教學瞭如何爬取,今日大體掌握了爬取視頻和爬取電影信息等內容。web