Selenium&Pytesseract模擬登錄+驗證碼識別

時間 2021-01-09

原文原文鏈接

驗證碼是爬蟲需要解決的問題,因爲很多網站的數據是需要登錄成功後纔可以獲取的. 驗證碼識別，即圖片識別，很多人都有誤區，覺得這是爬蟲方面的知識，其實是不對的. 驗證碼識別涉及到的知識：人工智能，模式識別，機器視覺，圖像處理. 主要流程： 1 圖像採集：就直接通過HTTP抓HTML，然後分析出圖片的url，然後下載保存就可以了 2 預處理：檢測是正確的圖像格式，轉換到合適的格式，壓縮，剪切出RO

>>阅读原文<<