在python爬蟲項目中,更換ip的場景是常常的事情,這個時候代理ip就派上用場了,國內關於爬蟲的代理IP服務提供商也是多如牛毛。python
那麼如何選擇一個合適的IP代理商呢,最直接的答案就是「多測試」,最近小編找了個代理平臺,目前有活動能夠免費領取1w代理IP,有須要的小夥伴能夠掃碼測試下,看看效果如何
網絡聊天中,爲了作一個歡樂的逗比,表情包是少不了的,小編無心間看到一個提供逗比表情包的公號,看着裏面的表情數不勝數因而就想下載下來,因此就有這篇文章。微信
話很少說,步入今天文章的分享內容,今天給你們帶來的是~~爬取微信公衆號文章裏面的圖片。cookie
爬蟲代碼:網絡
# coding:utf-8 # __auth__ = "maiz" # __date__ = "2021/3/27" import os import requests from bs4 import BeautifulSoup import datetime import os # url = input("請輸入url:") url='https://mp.weixin.qq.com/s/GGw4MKXd-9bx6ty14-XXew'#獲取鏈接 curr_time = datetime.datetime.now()#獲取系統時間 print(curr_time)#打印時間 測試用 headers = { 'user-agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1'}# 'cookie': 'tvfe_boss_uuid=4427f26b6d83d5d7; pgv_pvid=8192465356; pgv_pvi=2750494720; RK=cfw14pvSFY; ptcz=026939cd8bdd917551be81f3d0d2563bdb9e2d0805f4c83de8df0ea6af457e49; eas_sid=i1e690x1l8v2I68559J4e8K995; LW_sid=W1C6S0u1y8a2A6E864o8L480Z0; LW_uid=51H6V041L8i2n6Q8M4S8e4k0D0; uin_cookie=o0878530130; ied_qq=o0878530130; o_cookie=878530130; pac_uid=1_878530130; luin=o0878530130; lskey=000100000f95a236a0b3f6a309a1f6e4809612024104f9a476a9b0803995ce53ec225971d5d95f3164c7df7a; rewardsn=; wxtokenkey=777'} path = datetime.datetime.strftime(curr_time, '%Y%m%d%H%M')#將時間格式化爲字符生成時間戳到時候給文件夾命名用 print(path) if os.path.exists(path):#檢查是否存在這個文件夾 print("屬於這個時間點的文件夾已經建立好") else: os.mkdir(path)#不存在則建立 print("建立成功!!!!正在保存圖片") dirname = os.getcwd() + '' + path + ''#獲取當前工做目錄並加上以前的時間生成文件夾路徑 req = requests.get(url=url, headers=headers).content.decode()#向剛纔輸入的公衆號連接裏面發送請求 soup = BeautifulSoup(req, 'lxml')#用BeautifulSoup解析網頁 res = soup.select('img')#獲取該網頁中全部的圖片標籤 a = 0 for i in res:#遍歷全部的圖片標籤 if i.get("data-src") == None:#若是這個標籤內的data-src等於空的時候直接跳過 pass else:#不然獲取data-src裏面的內容獲取圖片連接 print(f'連接:{i.get("data-src")}類型爲:{i.get("data-type")}') try:#嘗試去保存圖片 若是保存圖片錯誤則拋出異常 with open(dirname + f'{a}.{i.get("data-type")}', 'wb') as f:#拼接路徑+a.jpg a是等於數字 每添加一個 a自增一 至關因而給圖片命名 而且以二進制的形式寫入 f.write(requests.get(url=i.get("data-src"), headers=headers).content)#向這個圖片發送請求 並將圖片的二進制寫入 f.close()#關閉寫入 a = a + 1#a自增一 except Exception as e:#拋出異常 增長程序強壯性 print("該連接爲空自動跳過!") print(f"這次一共成功保存圖片{a}張")
右擊運行代碼,便可成功爬取連接內全部的公衆號圖片,爬取的內容會根據本地時間生成一個文件夾,圖片存放在文件夾內。代碼獲取後臺回覆:」公衆號圖片下載「。python爬蟲
以上就是今天給你們分享的內容。測試