PYTHON爬蟲學習筆記1

PYTHON 爬蟲框架 1.調度器 2.URL管理器:防止重複以及循環爬取url,通常有三種實現方式,內存,數據庫,緩存數據庫。 3.網頁下載器:通過傳入URL來下載一個網頁 ,然後將網頁轉化成一個字符串。urllib2(python官方庫),包括登錄,代理,cookie。request(是屬於第三方庫) 4.網頁解析器:正則表達式,html.parser(python自帶),beautfulso
相關文章
相關標籤/搜索