python3爬蟲篩選所須要數據

時間 2019-11-21

原文原文鏈接

第一次使用博客園，也是第一篇文章，讓咱們一塊兒開啓學習之旅吧！！css

昨天在爲某受權系統作安全性測試的時候，能夠未受權訪問系統的用戶登錄統計記錄。由此想整理出部分用戶名，做爲暴力破解的用戶名，檢查是否存在用戶弱口令。安全

因爲時間緊，任務重，只是想使用re正則來簡單匹配所需數據便可。思路很簡單，使用requests庫爬下來，而後用re庫匹配，但在查看網頁源碼的過程當中，發現所須要的數據與其餘數據特徵一致，使用re庫匹配時，會將符合特徵的所有匹配出來，以下圖：函數

此時想過使用BeautifulSoup庫或者pyquery庫，但最後仍是放棄了，一來對這兩個庫還不是那麼熟悉，二來使用這兩個庫的css篩選器時，因爲源碼中的數據特徵一致，最終得出的代碼量或篩選結果與re庫差很少，因此最終仍是選擇re庫，由此得出以下代碼：學習

簡單解釋一下get_username()函數：測試

re匹配到的雖然是全部符合規則的結果（即圖中的username_list），但它返回的是一個list，而這個list中，我須要的數據是從第4個開始（注意：list是從0開始，且requests.get回來的在我所須要數據的前面還有符合規則的，因此從第4個開始），後面依次間隔5個。得到了這個規律，就能夠取出所須要的數據。開始想使用for循環的，但長度很難界定3d

就選擇了while True，使用while True的時候，當username_list[a]超出範圍時會報錯，因此使用try語句，固然方法還有不少，好比使用if語句等，最終得到以下結果：blog

若有更好建議，請在評論區評論或私聊。若有錯誤，還望斧正！get