python網絡爬蟲(9)構建基礎爬蟲思路

閱讀目錄 目的意義 功能模塊 設計思路 主文件設計 HTML下載器設計 HTML解析器設計 URL管理器設計 數據存儲器設計 目的意義 基礎爬蟲分5個模塊,使用多個文件相互配合,實現一個相對完善的數據爬取方案,便於以後更完善的爬蟲做準備。 這裏目的是爬取200條百度百科信息,並生成一個html文件,存儲爬取的站點,詞條,解釋。 本文思路來源書籍。其代碼部分來源書籍。https://book.dou
相關文章
相關標籤/搜索