爬蟲面試題02

爬蟲爬取數據的流程?html 明確數據採集需求; 分析要採集數據的url和相關參數; 編碼實現功能, 獲取url, 對url進行篩選,找到本身想要的部分, 入庫, 對數據去重;注意反爬蟲的規則:1.驗證碼的識別;2.使用代理;3.httpclient頭信息。 如何抓取動態頁面? 動態網頁指幾種可能: 1)須要用戶交互,如常見的登陸操做; 2)網頁經過JS / AJAX動態生成,python 如一個
相關文章
相關標籤/搜索