用 scrapy 爬微信公衆號的內容

抓包工具配置

1. Fiddler(windows)

# 1. 容許遠程鏈接
Tools > Fiddler Options > Connections > Allow remote computers to connect
# 2. 支持 HTTPS
Tools > Fiddler Options > HTTPS > Decrypt HTTPS traffic
# 3. 重啓
restart Fiddler

# 4. 手機配置
手機 wifi 設置代理,服務器地址爲爲電腦 ip 地址 xxx.xxx.xxx.xxx,端口爲 8888
# 5. 下載根證書
safari 打開 xxx.xxx.xxx.xxx:8888, 下載安裝根證書
# 6. 徹底信任證書
設置 > 通用 > 關於本機 > 證書信任設置 > 針對根證書啓用徹底信任
複製代碼

2.Charles(MacOS)

# 1. 手機配置
手機 wifi 設置代理,服務器地址爲爲電腦 ip 地址 xxx.xxx.xxx.xxx,端口爲 8888
# 2. 手機安裝 SSL 證書
Help -> SSL Proxying -> Install Charles Root Certificate on a Mobile Device
safari 打開地址 chls.pro/ssl,下載根證書
# 3. 徹底信任證書
設置 > 通用 > 關於本機 > 證書信任設置 > 針對根證書啓用徹底信任
# 4. 設置Proxy
Proxy -> SSL Proxying Settings...,勾選 Enable SSL Proxying
# 5. 添加域名
Host: https://mp.weixin.qq.com  Port: 443
複製代碼

scrapy(python package) 使用

  • 官網介紹:
An open source and collaborative framework for extracting the data you need from websites.
In a fast, simple, yet extensible way. 
複製代碼
  • 使用:
# 1. 建立項目 WCSpider
scrapy startproject WCSpider
 # 2. 切換到項目目錄
cd WCSpider
 # 3. 建立爬蟲 wechat
scrapy genspider wechat mp.qq.com
 # 4. 設置 Agent
在 settings 中打開 Agent 註釋
 # 5. 添加 item
在 items.py 中完成 item 建立
    name = scrapy.Field
    age = scrapy.Field
    ...
    
# 6. 解析 response
設置 start_urls
在 wechat.py 中解析 response, 返回item
    res = response.xpath(...)
    item['name'] = res['_name']
    item['age'] = res['_age']
    ...
    yield item
    
# 7. 設置管道文件
在 open_spider 初始化數據庫等
    self.f = open("file.json","w")
在 close_spider 關閉數據庫等
    self.f.close()
在 deal_spider 處理 item
    self.f.write(json.dumps(dict(item)))
在 settings 中啓用該管道文件
複製代碼

公衆號歷史消息抓包

本次抓包以 Charles 爲例。html

1.獲取首頁連接

抓包

如上圖所示,須要的內容在 var msgList = '{...}' 中,因爲並非標準 html,因此這裏 xpath 並很差用,可嘗試正則表達式快速取出內容。python

rex = "msgList = '({.*?})'"
pattern = re.compile(pattern=rex, flags=re.S)
match = pattern.search(response.text)
複製代碼

取出並格式化匹配項,本例中公衆號中的內容都是以文本的形式發送,因此直接取 comm_msg_info 內容,具體請根據實際狀況解析。web

if match:
    data = match.group(1)
    data = html.unescape(data)
    data = json.loads(data)
    articles = data.get("list")

    item = WechatItem()
    for article in articles:
        info = article["comm_msg_info"]
        content = html.unescape(info["content"])
        # 將獲取的數據傳遞給管道
        item["content"] = content
        item["we_id"] = info["id"]
        item["datetime"] = info["datetime"]
        item["we_type"] = info["type"]
        yield item
複製代碼

2. 獲取上拉刷新連接

向上滾動歷史列表,當到接近最底部時,會自動獲取更多內容,此時能夠經過抓包獲取內容。 正則表達式

如圖所示,返回的是 json 格式內容,經過 can_msg_continue 肯定是否有後續內容,general_msg_list 是解析的內容。經過分析多個加載歷史可知,offset 控制加載數據的位置。 --本例中使用 python 第三方庫 requests 加載數據shell

def getMore():
   # header
	header = sj_utils.header2dict(base_header)
	response = requests.get(getUrl(),headers = header, verify = False)
	
	js = json.loads(response.text)
	if js["errmsg"] == "ok":
		alist = js["general_msg_list"] # 內容是 json 字符串,須要先轉爲 json
		alist = json.loads(alist)["list"]
		for item in alist:
		  # 具體處理
			print(item["comm_msg_info"]["content"])

	if js["can_msg_continue"]:
	   url_offset += 10 # 設置偏移量
		getMore()
複製代碼

3.處理數據

開頭已經介紹了 scrapy 使用,經過管道文件能夠輕鬆處理爬取內容。數據庫

# 保存 json 文件
self.f.write(json.dumps(dict(item)))
複製代碼

參考

相關文章
相關標籤/搜索