好了,咱們第一個實踐的實例--爬取糗事百科段子,到這裏就結束了python
咱們來看看咱們作了什麼
1. 咱們花一個鐘的時間把python的知識點過了一遍,對python有了一個基本的認識
2. 而後在python的幾個發展大方向中咱們選擇了爬蟲做爲切入點
3. 爲了編寫爬蟲,咱們先是瞭解了爬蟲的簡單原理,而後從最簡單的爬蟲程序開始一步一步的註釋,實現將網頁源碼爬取下來
4. 爲了從源碼中找出咱們想要的數據,咱們介紹了分析網頁源碼的方法和工具,加入了正則表達式的學習
5. 經過醜事百科的實例,將咱們所學的知識點所有串聯起來
重要的知識點總結:
1. 最簡單的爬蟲程序
整個流程是這樣的
1. 導入 urllib2 庫函數
2. 使用 Rquests 構造請求
3. 使用 urlopen 方法發送請求
4. 將網頁源碼讀取並顯示出來
無論是什麼代碼,都但願能經常敲一下,如今你可能看不出什麼效果,可是後面你會發現你記得很牢
2. 分析網頁的過程
熟悉你裏瀏覽器,善用工具,在分析網頁源碼時注意總結規律
3. 正則表達式
基本上說記住 .*? 和 (.*?) 就好
從這個例子咱們也能夠知道一個爬蟲的原理是什麼了正則表達式
爬蟲就是經過程序模擬瀏覽器的行爲,在咱們打開網址的時候,瀏覽器和服務器之間的數據是經過發送請求,而後響應這樣的形似來的,因此咱們在代碼中就要模擬這種行爲,Rquests 是構造請求,urlopen 是發送請求,就這麼簡單瀏覽器
閒聊幾句
今天是2015-12-01,學習python的第15天,這其中寫文檔找各類資料的時間比真正寫代碼的時間要長,可是還好,這一系列的東西直到如今尚未斷,而且已經想好以後的不少內容了,我自己也是新手,只是由於要寫這一系列的......額......姑且叫作博客吧,因此花費了一些時間在網上查找,可是收穫到的比預想中的要多得多,也對學習的一個思路之類的有了更深的認識。我由於自己還有跟python爬蟲不相關的本職工做要作,因此也沒什麼時間雕琢,不過以個人水平,估計再怎麼雕琢也難出花來,並且這個基本是現學現賣,其中確定有不少寫得不到位的地方,等到有時間會從新整理
服務器