本文轉自伯樂在線:http://python.jobbole.com/81334/
python
1. 爬蟲是什麼
簡單的說,爬蟲是獲取網上的信息的一種方法
2. 編寫爬蟲程序要學習什麼知識
1. Python基礎知識
2. Python中urllib和urllib2庫的用法
3. Python正則表達式
4. Python爬蟲框架Scrapy
5. Python爬蟲更高級的功能
3. 爬蟲基礎瞭解
1. 瀏覽網頁的過程
在用戶瀏覽網頁的過程當中,咱們可能會看到許多好看的圖片,好比http://image.baidu.com/,咱們會看到幾張的圖片以及百度搜索框
這個過程其實就是用戶輸入網址以後,通過DNS服務器,找到服務器主機,向服務器發出一個請求,服務器通過解析以後
發送給用戶的瀏覽器 HTML、JS、CSS 等文件,瀏覽器解析出來,用戶即可以看到形形色色的圖片了
所以,用戶看到的網頁實質是由 HTML 代碼構成的
爬蟲爬來的即是這些內容,經過分析和過濾這些 HTML 代碼,實現對圖片、文字等資源的獲取。
2. URL的含義
URL,即統一資源定位符,也就是咱們說的網址,好比http://image.baidu.com/,就是一個url
統一資源定位符是對能夠從互聯網上獲得的資源的位置和訪問方法的一種簡潔的表示,是互聯網上標準資源的地址。
互聯網上的每一個文件都有一個惟一的URL,它包含的信息指出文件的位置以及瀏覽器應該怎麼處理它。
URL的格式由三部分組成:
①第一部分是協議(或稱爲服務方式)。
②第二部分是存有該資源的主機IP地址(有時也包括端口號)。
③第三部分是主機資源的具體地址,如目錄和文件名等。
爬蟲爬取數據時必需要傳入一個URL才能夠獲取數據,所以,它是爬蟲獲取數據的基本依據,準確理解它的含義對爬蟲學習有很大幫助。正則表達式