通用爬蟲編寫思路

通用爬蟲編寫思路 Web爬蟲需要解決的問題: 一、是否爲公開網站/站點?(=是否需要登錄?) 不需要登錄是如何標記各個用戶的:1、session 2、cookies 3、IP地址。 登錄的目的是什麼?(=是否一定需要登錄?=是否每次都需要登錄?) 每次都要登錄、如何登錄(=驗證碼) 二、頁面是如何加載的?(=動態加載問題) 所需的數據在什麼地方可以找到:1、html內 2、json內。 如果是動態
相關文章
相關標籤/搜索