爬蟲,被稱爲網絡機器人,如今爬蟲在咱們生活中具備很是重要,能夠解決不少繁瑣的過程,而python做爲爬蟲的首選語言,受到不少人的關注和喜歡。那麼學習python作爬蟲主要學習哪些內容呢?爲你們介紹一下。html
一、須要瞭解html相關的知識:html是一種標記語言並非很難學,它是超文本標記語言,標準通用標記語言下一個應用。Python網絡爬蟲學習,不須要你深刻學習html,只要知道掌握它經常使用的簡單標籤跟知識點就行。python
二、urllib、urllib2兩個庫:是進行網頁抓取時候會使用到的,在python中,urllib、urllib2兩個庫不可相互替代,雖然urllib2比urllib加強,可是urllib有urllib2沒有的函數。web
urllib2,能夠用urllib2openurl中設置Request參數,來修改Header頭。當你訪問一個文章,須要更改User Agent,也須要用它。網絡
urllib支持設置編碼的函數,urllib.urlencode進行模擬登錄的時候,常常要POST編碼以後的參數,不想要使用第三方進行登錄,你須要使用urllib。框架
三、python scrapy:scrapy是應用最爲普遍的爬蟲框架,沒有之一,也是成熟度最高的框架,能夠利用成熟的產品,避免造輪子,能夠快速的構建項目。scrapy
scrapy也是python開發的一個快速、高層次的屏幕抓取和web抓取框架,用於抓取web框架並從頁面提取結構化的數據,用途普遍,能夠應用在數據挖掘、監測和自動化測試。ide