常見Python爬蟲框架你會幾個？

時間 2019-11-29

原文原文鏈接

前言

文的文字及圖片來源於網絡,僅供學習、交流使用,不具備任何商業用途,版權歸原做者全部,若有問題請及時聯繫咱們以做處理。
做者：三名狂客
html

正文

注意：若是你Python技術學的不夠好，能夠點擊下方連接獲取最新Python教程：

http://note.youdao.com/noteshare?id=a3a533247e4c084a72c9ae88c271e3d1java

1、python爬蟲框架

一些爬蟲項目的半成品

2、常見python爬蟲框架

(1) Scrapy:很強大的爬蟲框架，能夠知足簡單的頁面爬取（好比能夠明確獲知url pattern的狀況）。用這個框架能夠輕鬆爬下來如亞馬遜商品信息之類的數據。可是對於稍微複雜一點的頁面，如weibo的頁面信息，這個框架就知足不了需求了。

(2) Crawley: 高速爬取對應網站的內容，支持關係和非關係數據庫，數據能夠導出爲JSON、XML等

(3) Portia:可視化爬取網頁內容

(4) newspaper:提取新聞、文章以及內容分析

(5) python-goose:java寫的文章提取工具

(6) Beautiful Soup:名氣大，整合了一些經常使用爬蟲需求。缺點：不能加載JS。

(7) mechanize:優勢：能夠加載JS。缺點：文檔嚴重缺失。不過經過官方的example以及人肉嘗試的方法，仍是勉強能用的。

(8) selenium:這是一個調用瀏覽器的driver，經過這個庫你能夠直接調用瀏覽器完成某些操做，好比輸入驗證碼。

(9) cola:一個分佈式爬蟲框架。項目總體設計有點糟，模塊間耦合度較高。

以上9個你會用幾個呢？