1.什麼是爬蟲html
網絡爬蟲(又被稱爲網頁蜘蛛,網絡機器人,在FOAF社區中間,更常常的稱爲網頁追逐者),是一種按照必定的規則,自動地抓取萬維網信息的程序或者腳本。java
2.url的含義python
URL,即統一資源定位符,也就是咱們說的網址,統一資源定位符是對能夠從互聯網上獲得的資源的位置和訪問方法的一種簡潔的表示,是互聯網上標準資源的地址。互聯網上的每一個文件都有一個惟一的URL,它包含的信息指出文件的位置以及瀏覽器應該怎麼處理它。c++
URL的格式由三部分組成:
①第一部分是協議(或稱爲服務方式)。
②第二部分是存有該資源的主機IP地址(有時也包括端口號)。
③第三部分是主機資源的具體地址,如目錄和文件名等。shell
爬蟲爬取數據時必需要有一個目標的URL才能夠獲取數據,所以,它是爬蟲獲取數據的基本依據,準確理解它的含義對爬蟲學習有很大幫助。編程
.爲何用python進行爬蟲c#
相比與其餘靜態編程語言,如java,c#,c++,python抓取網頁文檔的接口更簡潔;相比其餘動態腳本語言,如perl,shell,python的urllib2包提供了較爲完整的訪問網頁文檔的API。(固然ruby也是很好的選擇)
此外,抓取網頁有時候須要模擬瀏覽器的行爲,不少網站對於生硬的爬蟲抓取都是封殺的。這是咱們須要模擬user agent的行爲構造合適的請求,譬如模擬用戶登錄、模擬session/cookie的存儲和設置。在python裏都有很是優秀的第三方包幫你搞定,如Requests,mechanize瀏覽器
抓取的網頁一般須要處理,好比過濾html標籤,提取文本等。python的beautifulsoap提供了簡潔的文檔處理功能,能用極短的代碼完成大部分文檔的處理。
其實以上功能不少語言和工具都能作,可是用python可以幹得最快,最乾淨。ruby