本文是博主原創隨筆,轉載時請註明出處Maple2cat|Python爬蟲學習:3、爬蟲的基本操做與流程html
通常咱們使用Python爬蟲都是但願實現一套完整的功能,以下:正則表達式
1.爬蟲目標數據、信息;數據庫
2.將數據或信息存入數據庫中;瀏覽器
3.數據展現,即在Web端進行顯示,並有本身的分析說明。學習
此次我先介紹第一個功能中所須要實現的基本操做:網站
爬蟲的基本操做:
表示必須步驟 表示可選步驟
- 導入爬蟲所須要的庫(如:urllib、urllib二、BeautifulSoup、Scrapy等)
- 定義目標連接:url="http://www.cnblogs.com/Maple2cat/"
- 添加data信息:data爲字典類型,能夠添加name,password等一些登陸所需信息
- 定義headers:有些網站會識別連接是否由瀏覽器發出的請求,須要定義headers用假裝是瀏覽器所訪問的
- 若是在第三步中添加了data信息,則須要對data進行轉編碼:urlencode(data)
- 請求連接:res=urllib2.Request(url,data,headers)
- 讀取HTML源碼:html=res.read()
- 解析html,通常經常使用的方法有兩種:¹ 正則表達式(根據提取規則截取目標內容);² BeautifulSoup(根據html標籤進行提取,如:<a>……</a>)
- 存入本地或者數據庫
Python正則表達式學習請看這邊→|||Python正則表達式學習|||編碼
下一篇將簡單介紹如何查看網站登陸的data信息以及headers,^_^~