python之Beautiflusoup操做

時間 2019-12-13

原文原文鏈接

from bs4 import BeautifulSoup
import requests
import os

######對風景進行爬出操做
r = requests.get("http://699pic.com/sousuo-218808-13-1-0-0-0.html")
fengjing = r.content
soup = BeautifulSoup(fengjing,"html.parser")
#print(soup.prettify())
#找出全部class標籤
images = soup.find_all(class_="lazy")
print(images)
for item in images:
    try:
        jpg_url = item["data-original"]
        title = item["title"]
        print(title)
        print(jpg_url)
        print("")
        #保存圖片
        with open(os.getcwd()+"\\jpg"+title+".jpg","wb") as f:
            f.write(requests.get(jpg_url).content)
    except Exception as e:
        pass

另外爬蟲Blog以下程序：html

from bs4 import BeautifulSoup
import requests

#r = requests.get("https://www.cnblogs.com/Teachertao/")

# 請求首頁後獲取整個 html 界面
blog = r.content
#print(blog)

#用html.parser解析出html
soup = BeautifulSoup(blog,"html.parser")

# prettify()能夠自動解析爲html格式
print(soup.prettify())

#獲取全部的class屬性爲"block_title"，返回Tag類
time = soup.find_all(class_="block_title")
#print(time)

db = [item for item in time]
print(db)
# 獲取title
title = soup.find_all(class_="posttitle")
print(title)
#獲取摘要
desc = soup.find_all(class_="c_b_p_desc")
print(desc)
for item in desc:
# tag 的 .contents 屬性能夠將 tag 的子節點以列表的方式輸出
    print(item)