python-21：爬取糗事百科段子--總結

時間 2019-11-12

原文原文鏈接

好了，咱們第一個實踐的實例--爬取糗事百科段子，到這裏就結束了python

咱們來看看咱們作了什麼
   1. 咱們花一個鐘的時間把python的知識點過了一遍，對python有了一個基本的認識
   2. 而後在python的幾個發展大方向中咱們選擇了爬蟲做爲切入點
   3. 爲了編寫爬蟲，咱們先是瞭解了爬蟲的簡單原理，而後從最簡單的爬蟲程序開始一步一步的註釋，實現將網頁源碼爬取下來
   4. 爲了從源碼中找出咱們想要的數據，咱們介紹了分析網頁源碼的方法和工具，加入了正則表達式的學習
   5. 經過醜事百科的實例，將咱們所學的知識點所有串聯起來


重要的知識點總結：
   1. 最簡單的爬蟲程序
           整個流程是這樣的
               1. 導入 urllib2 庫函數
               2. 使用 Rquests 構造請求
               3. 使用 urlopen 方法發送請求
               4. 將網頁源碼讀取並顯示出來
       無論是什麼代碼，都但願能經常敲一下，如今你可能看不出什麼效果，可是後面你會發現你記得很牢

   2. 分析網頁的過程
       熟悉你裏瀏覽器，善用工具，在分析網頁源碼時注意總結規律

   3. 正則表達式
       基本上說記住 .*? 和 (.*?) 就好

從這個例子咱們也能夠知道一個爬蟲的原理是什麼了正則表達式

爬蟲就是經過程序模擬瀏覽器的行爲，在咱們打開網址的時候，瀏覽器和服務器之間的數據是經過發送請求，而後響應這樣的形似來的，因此咱們在代碼中就要模擬這種行爲，Rquests 是構造請求，urlopen 是發送請求，就這麼簡單瀏覽器

閒聊幾句
   今天是2015-12-01，學習python的第15天，這其中寫文檔找各類資料的時間比真正寫代碼的時間要長，可是還好，這一系列的東西直到如今尚未斷，而且已經想好以後的不少內容了，我自己也是新手，只是由於要寫這一系列的......額......姑且叫作博客吧，因此花費了一些時間在網上查找，可是收穫到的比預想中的要多得多，也對學習的一個思路之類的有了更深的認識。我由於自己還有跟python爬蟲不相關的本職工做要作，因此也沒什麼時間雕琢，不過以個人水平，估計再怎麼雕琢也難出花來，並且這個基本是現學現賣，其中確定有不少寫得不到位的地方，等到有時間會從新整理



服務器

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。