第一次使用博客園,也是第一篇文章,讓咱們一塊兒開啓學習之旅吧!!css
昨天在爲某受權系統作安全性測試的時候,能夠未受權訪問系統的用戶登錄統計記錄。由此想整理出部分用戶名,做爲暴力破解的用戶名,檢查是否存在用戶弱口令。安全
因爲時間緊,任務重,只是想使用re正則來簡單匹配所需數據便可。思路很簡單,使用requests庫爬下來,而後用re庫匹配,但在查看網頁源碼的過程當中,發現所須要的數據與其餘數據特徵一致,使用re庫匹配時,會將符合特徵的所有匹配出來,以下圖:函數
此時想過使用BeautifulSoup庫或者pyquery庫,但最後仍是放棄了,一來對這兩個庫還不是那麼熟悉,二來使用這兩個庫的css篩選器時,因爲源碼中的數據特徵一致,最終得出的代碼量或篩選結果與re庫差很少,因此最終仍是選擇re庫,由此得出以下代碼:學習
簡單解釋一下get_username()函數:測試
re匹配到的雖然是全部符合規則的結果(即圖中的username_list),但它返回的是一個list,而這個list中,我須要的數據是從第4個開始(注意:list是從0開始,且requests.get回來的在我所須要數據的前面還有符合規則的,因此從第4個開始),後面依次間隔5個。得到了這個規律,就能夠取出所須要的數據。開始想使用for循環的,但長度很難界定3d
就選擇了while True,使用while True的時候,當username_list[a]超出範圍時會報錯,因此使用try語句,固然方法還有不少,好比使用if語句等,最終得到以下結果:blog
若有更好建議,請在評論區評論或私聊。若有錯誤,還望斧正!get