Python爬蟲學習：3、爬蟲的基本操做流程

時間 2019-11-30

標籤 python 爬蟲學習基本流程欄目 Python 简体版

原文原文鏈接

本文是博主原創隨筆，轉載時請註明出處Maple2cat|Python爬蟲學習：3、爬蟲的基本操做與流程html

通常咱們使用Python爬蟲都是但願實現一套完整的功能，以下：正則表達式

1.爬蟲目標數據、信息；數據庫

2.將數據或信息存入數據庫中；瀏覽器

3.數據展現，即在Web端進行顯示，並有本身的分析說明。學習

此次我先介紹第一個功能中所須要實現的基本操做：網站

爬蟲的基本操做：

　　表示必須步驟表示可選步驟

導入爬蟲所須要的庫（如：urllib、urllib二、BeautifulSoup、Scrapy等）
定義目標連接：url="http://www.cnblogs.com/Maple2cat/"
添加data信息：data爲字典類型，能夠添加name，password等一些登陸所需信息
定義headers：有些網站會識別連接是否由瀏覽器發出的請求，須要定義headers用假裝是瀏覽器所訪問的
若是在第三步中添加了data信息，則須要對data進行轉編碼：urlencode(data)
請求連接：res=urllib2.Request(url,data,headers)
讀取HTML源碼：html=res.read()
解析html，通常經常使用的方法有兩種：¹ 正則表達式（根據提取規則截取目標內容）；² BeautifulSoup（根據html標籤進行提取，如：<a>……</a>）
存入本地或者數據庫

Python正則表達式學習請看這邊→|||Python正則表達式學習|||編碼

下一篇將簡單介紹如何查看網站登陸的data信息以及headers，^_^~

相關文章

相關標籤/搜索

爬蟲－反爬蟲

Python爬蟲教學

PHP 7 新特性

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<