Python爬蟲：經常使用的爬蟲工具彙總

時間 2021-08-13

標籤 javascript css html html5 java python mysql git github sql 欄目 Python 简体版

原文原文鏈接

按照網絡爬蟲的的思路：javascript

頁面下載

頁面解析

數據存儲

將工具按照以上分類說明，按照學習路線順序給出參考文章css

1、頁面下載器

requests(必學)html
scrapyhtml5
selenium+chrome + PhantomJS(抓取動態網頁，不推薦)java
Splash(抓取動態網頁，推薦)python

總結：
對於下載器而言，python自帶的urllib就不要花時間去學了，學了就忘，直接requests能知足大部分測試+抓取需求，進階工程化scrapy，動態網頁優先找API接口，若是有簡單加密就破解，實在困難就使用splash渲染mysql

2、頁面解析器

BeautifulSoup(入門級)git
1. Python爬蟲入門BeautifulSoup模塊
pyquery （相似jQuery）github
1. Python爬蟲：pyquery模塊解析網頁
lxmlsql
1. Python爬蟲：使用lxml解析網頁內容
parsel
1. Extract text using CSS or XPath selectors
scrapy的Selector (強烈推薦, 比較高級的封裝，基於parsel)
1. 選擇器(Selectors)
2. python爬蟲：scrapy框架xpath和css選擇器語法

總結：
其實解析器學習一個就夠了，其餘都不用學，不少培訓會教你從上到下的學習，我不是很推薦，直接學習scrapy的Selector 就行，簡單、直接、高效

3、數據存儲

txt文本
1. Python全棧之路：文件file經常使用操做
csv文件
1. python讀取寫入csv文件
sqlite3 （python自帶）
1. Python編程：使用數據庫sqlite3
MySQL
1. SQL：pymysql模塊讀寫mysql數據
MongoDB
1. Python編程：mongodb的基本增刪改查操做

總結：
數據存儲沒有什麼可深究的，按照業務需求來就行，通常快速測試使用MongoDB，業務使用MySQL

4、其餘工具

execjs ：執行js
Python爬蟲：execjs在python中運行javascript代碼
pyv8: 執行js
mac安裝pyv8模塊-JavaScript翻譯成python
html5lib
1. Python爬蟲：scrapy利用html5lib解析不規範的html文本

5、關於xpath練習

本人的一個開源項目：PageParser
https://github.com/mouday/PageParser用於解析網頁，最終實現6行代碼寫爬蟲，能夠貢獻代碼，順便練習網頁解析的能力

相關文章

相關標籤/搜索

爬蟲－反爬蟲

python爬蟲-爬微博

Hibernate教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<