回顧
瀏覽器原理
爬蟲工做原理
能夠requests.get() 來獲取網上的數據
HTML回顧
HTML的學習依序分爲三個層次,應該是讀懂、修改、編寫
只有讀懂了HTML,才能看得懂網頁結構,纔有可能運用Python的其餘模塊去解析數據和提取數據
什麼是html
HTML(Hyper Text Markup Language)是用來描述網頁的一種語言,也叫超文本標記語言
HTML之於網頁就比如建築圖紙之於建築
html, css, js的關係
HTML標籤
網頁頭和網頁體
屬性
id和class
id 是一對一的關係, class是一對多的關係
小做業: 獲取網頁源代碼...
localprod.pandateacher.com/python-manu…
小總結
import requests #調用requests庫
from bs4 import BeautifulSoup
# 獲取數據
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html')
# res.status_code 狀態碼
# res.content 二進制
# res.text html代碼
# res.encoding 編碼
# 解析數據
# soup 是beautifulsoup對象
soup = BeautifulSoup(res.text,'html.parser')
# soup.find(標籤名,屬性=屬性值)
# soup.find_all(標籤名, 屬性=屬性值)
# 提取數據 list 裏面是tag對象
item = soup.find_all('div',class_='books')
for i in item:
# i.find().find().find() # tag對象, 能夠一級一級找下去
# i.find_all()
# i 是tag對象, 也能夠使用find和find_all, 獲得結果仍是tag對象
# i.find().find().find().find()
print(i.find('a',class_='title').text) # 獲取標籤內容
print(i.find('a',class_='title')['href']) # 獲取標籤屬性(href)
print(i.find('p',class_='info').text) # 獲取標籤內容
複製代碼
貓哥教你寫爬蟲 000--開篇.md
貓哥教你寫爬蟲 001--print()函數和變量.md
貓哥教你寫爬蟲 002--做業-打印皮卡丘.md
貓哥教你寫爬蟲 003--數據類型轉換.md
貓哥教你寫爬蟲 004--數據類型轉換-小練習.md
貓哥教你寫爬蟲 005--數據類型轉換-小做業.md
貓哥教你寫爬蟲 006--條件判斷和條件嵌套.md
貓哥教你寫爬蟲 007--條件判斷和條件嵌套-小做業.md
貓哥教你寫爬蟲 008--input()函數.md
貓哥教你寫爬蟲 009--input()函數-人工智能小愛同窗.md
貓哥教你寫爬蟲 010--列表,字典,循環.md
貓哥教你寫爬蟲 011--列表,字典,循環-小做業.md
貓哥教你寫爬蟲 012--布爾值和四種語句.md
貓哥教你寫爬蟲 013--布爾值和四種語句-小做業.md
貓哥教你寫爬蟲 014--pk小遊戲.md
貓哥教你寫爬蟲 015--pk小遊戲(全新改版).md
貓哥教你寫爬蟲 016--函數.md
貓哥教你寫爬蟲 017--函數-小做業.md
貓哥教你寫爬蟲 018--debug.md
貓哥教你寫爬蟲 019--debug-做業.md
貓哥教你寫爬蟲 020--類與對象(上).md
貓哥教你寫爬蟲 021--類與對象(上)-做業.md
貓哥教你寫爬蟲 022--類與對象(下).md
貓哥教你寫爬蟲 023--類與對象(下)-做業.md
貓哥教你寫爬蟲 024--編碼&&解碼.md
貓哥教你寫爬蟲 025--編碼&&解碼-小做業.md
貓哥教你寫爬蟲 026--模塊.md
貓哥教你寫爬蟲 027--模塊介紹.md
貓哥教你寫爬蟲 028--模塊介紹-小做業-廣告牌.md
貓哥教你寫爬蟲 029--爬蟲初探-requests.md
貓哥教你寫爬蟲 030--爬蟲初探-requests-做業.md
貓哥教你寫爬蟲 031--爬蟲基礎-html.md
貓哥教你寫爬蟲 032--爬蟲初體驗-BeautifulSoup.md
貓哥教你寫爬蟲 033--爬蟲初體驗-BeautifulSoup-做業.md
貓哥教你寫爬蟲 034--爬蟲-BeautifulSoup實踐.md
貓哥教你寫爬蟲 035--爬蟲-BeautifulSoup實踐-做業-電影top250.md
貓哥教你寫爬蟲 036--爬蟲-BeautifulSoup實踐-做業-電影top250-做業解析.md
貓哥教你寫爬蟲 037--爬蟲-寶寶要聽歌.md
貓哥教你寫爬蟲 038--帶參數請求.md
貓哥教你寫爬蟲 039--存儲數據.md
貓哥教你寫爬蟲 040--存儲數據-做業.md
貓哥教你寫爬蟲 041--模擬登陸-cookie.md
貓哥教你寫爬蟲 042--session的用法.md
貓哥教你寫爬蟲 043--模擬瀏覽器.md
貓哥教你寫爬蟲 044--模擬瀏覽器-做業.md
貓哥教你寫爬蟲 045--協程.md
貓哥教你寫爬蟲 046--協程-實踐-吃什麼不會胖.md
貓哥教你寫爬蟲 047--scrapy框架.md
貓哥教你寫爬蟲 048--爬蟲和反爬蟲.md
貓哥教你寫爬蟲 049--完結撒花.mdcss