千峯Python爬蟲筆記day01

爬蟲工做流程:1.將種子URL放入隊列 2.從隊列獲取URL,模擬瀏覽器訪問URL,抓取內容 3.解析抓取的內容,將須要進一步抓取的URL放入工做隊列,存儲解析後的內容。(能夠用文件、MySQL、SQLite、MongoDB等存儲) ps:去重:Hash表,bloom過濾器css 抓取策略:深度優先、廣度優先、PageRank(SEO乾的事兒)、大站優先html 爬蟲口頭協議-robots協議,如
相關文章
相關標籤/搜索