Python爬蟲學習:3、爬蟲的基本操做流程

本文是博主原創隨筆,轉載時請註明出處Maple2cat|Python爬蟲學習:3、爬蟲的基本操做與流程html

 通常咱們使用Python爬蟲都是但願實現一套完整的功能,以下:正則表達式

1.爬蟲目標數據、信息;數據庫

2.將數據或信息存入數據庫中;瀏覽器

3.數據展現,即在Web端進行顯示,並有本身的分析說明。學習

 

此次我先介紹第一個功能中所須要實現的基本操做:網站

 爬蟲的基本操做:

       表示必須步驟           表示可選步驟

  1. 導入爬蟲所須要的庫(如:urllib、urllib二、BeautifulSoup、Scrapy等)
  2. 定義目標連接:url="http://www.cnblogs.com/Maple2cat/"
  3. 添加data信息:data爲字典類型,能夠添加name,password等一些登陸所需信息
  4. 定義headers:有些網站會識別連接是否由瀏覽器發出的請求,須要定義headers用假裝是瀏覽器所訪問的
  5. 若是在第三步中添加了data信息,則須要對data進行轉編碼:urlencode(data)
  6. 請求連接:res=urllib2.Request(url,data,headers)
  7. 讀取HTML源碼:html=res.read()
  8. 解析html,通常經常使用的方法有兩種:¹ 正則表達式(根據提取規則截取目標內容);² BeautifulSoup(根據html標籤進行提取,如:<a>……</a>)
  9. 存入本地或者數據庫

Python正則表達式學習請看這邊→|||Python正則表達式學習|||編碼

 下一篇將簡單介紹如何查看網站登陸的data信息以及headers,^_^~

相關文章
相關標籤/搜索