貓哥教你寫爬蟲 031--爬蟲基礎-html

回顧

瀏覽器原理

1559096126659

爬蟲工做原理

1559096168582

能夠requests.get() 來獲取網上的數據

1559096192805

HTML回顧

HTML的學習依序分爲三個層次,應該是讀懂、修改、編寫

只有讀懂了HTML,才能看得懂網頁結構,纔有可能運用Python的其餘模塊去解析數據和提取數據

什麼是html

HTML(Hyper Text Markup Language)是用來描述網頁的一種語言,也叫超文本標記語言

HTML之於網頁就比如建築圖紙之於建築

html, css, js的關係

1559097613869

HTML標籤

1559096684990
1559096701135
1559096723010

網頁頭和網頁體

1559096758525

屬性

1559096807905
1559096893973

id和class

id 是一對一的關係, class是一對多的關係

1559096952460
1559096976024

小做業: 獲取網頁源代碼...

localprod.pandateacher.com/python-manu…

小總結

import requests #調用requests庫
from bs4 import BeautifulSoup
# 獲取數據
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html') 
# res.status_code 狀態碼
# res.content 二進制
# res.text html代碼
# res.encoding 編碼
# 解析數據
# soup 是beautifulsoup對象
soup = BeautifulSoup(res.text,'html.parser')
# soup.find(標籤名,屬性=屬性值)
# soup.find_all(標籤名, 屬性=屬性值)
# 提取數據 list 裏面是tag對象
item = soup.find_all('div',class_='books')
for i in item:
    # i.find().find().find() # tag對象, 能夠一級一級找下去
    # i.find_all()
    # i 是tag對象, 也能夠使用find和find_all, 獲得結果仍是tag對象
    # i.find().find().find().find()
    print(i.find('a',class_='title').text) # 獲取標籤內容
    print(i.find('a',class_='title')['href']) # 獲取標籤屬性(href)
    print(i.find('p',class_='info').text) # 獲取標籤內容
複製代碼

快速跳轉:

貓哥教你寫爬蟲 000--開篇.md
貓哥教你寫爬蟲 001--print()函數和變量.md
貓哥教你寫爬蟲 002--做業-打印皮卡丘.md
貓哥教你寫爬蟲 003--數據類型轉換.md
貓哥教你寫爬蟲 004--數據類型轉換-小練習.md
貓哥教你寫爬蟲 005--數據類型轉換-小做業.md
貓哥教你寫爬蟲 006--條件判斷和條件嵌套.md
貓哥教你寫爬蟲 007--條件判斷和條件嵌套-小做業.md
貓哥教你寫爬蟲 008--input()函數.md
貓哥教你寫爬蟲 009--input()函數-人工智能小愛同窗.md
貓哥教你寫爬蟲 010--列表,字典,循環.md
貓哥教你寫爬蟲 011--列表,字典,循環-小做業.md
貓哥教你寫爬蟲 012--布爾值和四種語句.md
貓哥教你寫爬蟲 013--布爾值和四種語句-小做業.md
貓哥教你寫爬蟲 014--pk小遊戲.md
貓哥教你寫爬蟲 015--pk小遊戲(全新改版).md
貓哥教你寫爬蟲 016--函數.md
貓哥教你寫爬蟲 017--函數-小做業.md
貓哥教你寫爬蟲 018--debug.md
貓哥教你寫爬蟲 019--debug-做業.md
貓哥教你寫爬蟲 020--類與對象(上).md
貓哥教你寫爬蟲 021--類與對象(上)-做業.md
貓哥教你寫爬蟲 022--類與對象(下).md
貓哥教你寫爬蟲 023--類與對象(下)-做業.md
貓哥教你寫爬蟲 024--編碼&&解碼.md
貓哥教你寫爬蟲 025--編碼&&解碼-小做業.md
貓哥教你寫爬蟲 026--模塊.md
貓哥教你寫爬蟲 027--模塊介紹.md
貓哥教你寫爬蟲 028--模塊介紹-小做業-廣告牌.md
貓哥教你寫爬蟲 029--爬蟲初探-requests.md
貓哥教你寫爬蟲 030--爬蟲初探-requests-做業.md
貓哥教你寫爬蟲 031--爬蟲基礎-html.md
貓哥教你寫爬蟲 032--爬蟲初體驗-BeautifulSoup.md
貓哥教你寫爬蟲 033--爬蟲初體驗-BeautifulSoup-做業.md
貓哥教你寫爬蟲 034--爬蟲-BeautifulSoup實踐.md
貓哥教你寫爬蟲 035--爬蟲-BeautifulSoup實踐-做業-電影top250.md
貓哥教你寫爬蟲 036--爬蟲-BeautifulSoup實踐-做業-電影top250-做業解析.md
貓哥教你寫爬蟲 037--爬蟲-寶寶要聽歌.md
貓哥教你寫爬蟲 038--帶參數請求.md
貓哥教你寫爬蟲 039--存儲數據.md
貓哥教你寫爬蟲 040--存儲數據-做業.md
貓哥教你寫爬蟲 041--模擬登陸-cookie.md
貓哥教你寫爬蟲 042--session的用法.md
貓哥教你寫爬蟲 043--模擬瀏覽器.md
貓哥教你寫爬蟲 044--模擬瀏覽器-做業.md
貓哥教你寫爬蟲 045--協程.md
貓哥教你寫爬蟲 046--協程-實踐-吃什麼不會胖.md
貓哥教你寫爬蟲 047--scrapy框架.md
貓哥教你寫爬蟲 048--爬蟲和反爬蟲.md
貓哥教你寫爬蟲 049--完結撒花.mdcss

相關文章
相關標籤/搜索