數據處理流程總結

爬蟲: 1.工具 python requests包,僞造header,IP池代理 2ThreadPoolExecutor模塊,多進程抓取未成功獲得的網頁池。 做一個爬取成功URL池listyes 和 不成功URL池子listno,初始賦值listno=全部URL。每次只從失敗的listno中進行     #多線程     def multithreading():         number =
相關文章
相關標籤/搜索