搜狗詞庫爬蟲(2):基礎爬蟲框架的運行流程

系列目錄: 搜狗詞庫爬蟲(1):基礎爬蟲架構和爬取詞庫分類 項目Github地址:https://github.com/padluo/sogouSpider 各模塊對應的內容如下: getCategory.py,提取詞庫分類ID和名字,以字典形式返回。 SpiderMan.py,爬蟲調度器。 UrlManager.py,URL管理器。 HtmlDownloader.py,網頁下載器。 HtmlPa
相關文章
相關標籤/搜索