千峯Python爬蟲筆記day01

時間 2020-05-24

標籤 python 爬蟲筆記 day01 day 欄目 Python 简体版

原文原文鏈接

爬蟲工做流程：1.將種子URL放入隊列 2.從隊列獲取URL，模擬瀏覽器訪問URL，抓取內容 3.解析抓取的內容，將須要進一步抓取的URL放入工做隊列，存儲解析後的內容。(能夠用文件、MySQL、SQLite、MongoDB等存儲) ps：去重：Hash表，bloom過濾器css 抓取策略：深度優先、廣度優先、PageRank（SEO乾的事兒）、大站優先html 爬蟲口頭協議-robots協議，如

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。