python實戰——網絡爬蟲

學習網絡爬蟲的目的網絡

1,能夠私人定製一個搜索引擎,能夠深層次的瞭解搜索引擎的工做原理。學習

2,大數據時代,要進行數據分析,首先要有數據源,學習爬蟲,能夠讓咱們獲取更多的數據。大數據

3,從業人員能夠可好的利用爬蟲,瞭解其原理,更加優化你的程序。優化

網絡爬蟲的組成搜索引擎

網絡爬蟲由控制節點,爬蟲節點,資源庫構成spa

爬蟲的類型索引

1,通用網絡爬蟲:又叫全網爬蟲,能夠在全網中爬取目標資源。資源

2,聚焦網絡爬蟲:主要使用在對特定信息的爬取中,主要爲莫一類特定的人提供服務。數據分析

3,增量式網絡爬蟲:所謂增量式,就是之增量式更新,增量式更新指的是在更新的時候只更新改變的地方,而未改變的地方不更新,因此增量式爬蟲在必定程度上保證所爬取的頁面儘量的都是新頁面。原理

4,深層網絡爬蟲:所謂深層,指的是在互聯網中,網頁按存放方式分類,能夠分爲表層頁面和深層頁面,所謂的表層頁面指的是不須要提交表單,使用靜態的連接就能夠達到的靜態頁面。而深層頁面則須要在提交必定的關鍵詞以後才能獲取的頁面。

相關文章
相關標籤/搜索