python教程---爬蟲入門教程一

時間 2019-11-12

原文原文鏈接

這次教程使用的python版本爲2.7！！！html

在剛上大學之時，老是在網上看到什麼爬蟲，由於當時還在學習c++，沒有時機學習python，更沒有去學習爬蟲了，而趁着此次工程實訓學習了基本的python的使用，因而有提起了學習爬蟲的興致，也寫下了這個系列的博客，以記錄本身的積累python

下面進入正題：c++

爬蟲是什麼？正則表達式

網絡爬蟲（又被稱爲網頁蜘蛛，網絡機器人，在FOAF社區中間，更常常的稱爲網頁追逐者），是一種按照必定的規則，自動的抓取萬維網信息的程序或者腳本。shell

在學習爬蟲時須要用到那些知識呢？後端

Python基礎知識
Python中urllib和urllib2庫的用法
Python正則表達式
Python爬蟲框架Scrapy
Python爬蟲更高級的功能

1.Python基礎知識學習緩存

這個是在網上學習時常常用到的資源：cookie

a)廖雪峯Python教程網絡

b)Python官方文檔session

2.關於urllib和urllib2庫的使用

網上有教程，以後的博客也會有我本身的學習介紹，不過最佳的學習應該就是到官方文檔中學習了。

3.正則表達式

因爲我也仍是初學，也只是瞭解一點，如今還不能給出很好的學習經驗，不過多用用搜索引擎，應該是可以學的很快的

4.爬蟲框架Scrapy

在爬蟲的基本知識已經徹底熟練以後，就能夠嘗試去使用框架完成更好的東西。我在學習過程當中學習的是Scrapy框架，官方文檔的介紹是這樣的：

TML, XML源數據選擇及提取的內置支持
提供了一系列在spider之間共享的可複用的過濾器(即 Item Loaders)，對智能處理爬取數據提供了內置支持。
經過 feed導出提供了多格式(JSON、CSV、XML)，多存儲後端(FTP、S三、本地文件系統)的內置支持
提供了media pipeline，能夠自動下載爬取到的數據中的圖片(或者其餘資源)。
高擴展性。您能夠經過使用 signals ，設計好的API(中間件, extensions, pipelines)來定製實現您的功能。
內置的中間件及擴展爲下列功能提供了支持:
cookies and session 處理
HTTP 壓縮
HTTP 認證
HTTP 緩存
user-agent模擬
robots.txt
爬取深度限制
針對非英語語系中不標準或者錯誤的編碼聲明, 提供了自動檢測以及健壯的編碼支持。
支持根據模板生成爬蟲。在加速爬蟲建立的同時，保持在大型項目中的代碼更爲一致。詳細內容請參閱 genspider 命令。
針對多爬蟲下性能評估、失敗檢測，提供了可擴展的狀態收集工具。
提供交互式shell終端 , 爲您測試XPath表達式，編寫和調試爬蟲提供了極大的方便
提供 System service, 簡化在生產環境的部署及運行
內置 Web service, 使您能夠監視及控制您的機器
內置 Telnet終端，經過在Scrapy進程中鉤入Python終端，使您能夠查看而且調試爬蟲
Logging 爲您在爬取過程當中捕捉錯誤提供了方便
支持 Sitemaps 爬取
具備緩存的DNS解析器

Scrapy官方文檔

參考博客：Python爬蟲入門一之綜述