爬蟲的工作流程

爬蟲的工作流程(重點) 總結: 搜索引擎流程 與 聚焦爬蟲流程的區別: 搜索引擎流程: 爬取範圍: 整個網絡, 見到URL就爬 保存的數據: 保存的是原始的HTML 預處理: 主要是 分詞, 排名 聚焦爬蟲流程 爬取範圍: 特定的URL, 只有有需要的數據的URL,才爬取 保存的數據: 保存的是需要的數據.
相關文章
相關標籤/搜索