洗禮靈魂,修煉python(52)--爬蟲篇—【轉載】爬蟲工具列表
與爬蟲相關的經常使用模塊列表。
網絡
- 通用
- 異步
- treq – 相似於requests的API(基於twisted)。
- aiohttp – asyncio的HTTP客戶端/服務器(PEP-3156)。
網絡爬蟲框架
- 功能齊全的爬蟲
- grab – 網絡爬蟲框架(基於pycurl/multicur)。
- scrapy – 網絡爬蟲框架(基於twisted),不支持Python3。
- pyspider – 一個強大的爬蟲系統。
- cola – 一個分佈式爬蟲框架。
- 其餘
- portia – 基於Scrapy的可視化爬蟲。
- restkit – Python的HTTP資源工具包。它可讓你輕鬆地訪問HTTP資源,並圍繞它創建的對象。
- demiurge – 基於PyQuery的爬蟲微框架。
HTML/XML解析器
文本處理
用於解析和操做簡單文本的庫。css
特定格式文件處理
解析和處理特定文本格式的庫。html
- tablib – 一個把數據導出爲XLS、CSV、JSON、YAML等格式的模塊。
- textract – 從各類文件中提取文本,好比 Word、PowerPoint、PDF等。
- messytables – 解析混亂的表格數據的工具。
- rows – 一個經常使用數據接口,支持的格式不少(目前支持CSV,HTML,XLS,TXT – 未來還會提供更多!)。
- python-docx – 讀取,查詢和修改的Microsoft Word2007/2008的docx文件。
- xlwt / xlrd – 從Excel文件讀取寫入數據和格式信息。
- XlsxWriter – 一個建立Excel.xlsx文件的Python模塊。
- xlwings – 一個BSD許可的庫,能夠很容易地在Excel中調用Python,反之亦然。
- openpyxl – 一個用於讀取和寫入的Excel2010 XLSX/ XLSM/ xltx/ XLTM文件的庫。
- Marmir – 提取Python數據結構並將其轉換爲電子表格。
- pefile – 一個多平臺的用於解析和處理可移植執行體(即PE)文件的模塊。
- psd-tools – 將Adobe Photoshop PSD(即PE)文件讀取到Python數據結構。
天然語言處理
處理人類語言問題的庫。html5
- NLTK -編寫Python程序來處理人類語言數據的最好平臺。
- Pattern – Python的網絡挖掘模塊。他有天然語言處理工具,機器學習以及其它。
- TextBlob – 爲深刻天然語言處理任務提供了一致的API。是基於NLTK以及Pattern的巨人之肩上發展的。
- jieba – 中文分詞工具。
- SnowNLP – 中文文本處理庫。
- loso – 另外一箇中文分詞庫。
- genius – 基於條件隨機域的中文分詞。
- langid.py – 獨立的語言識別系統。
- Korean – 一個韓文形態庫。
- pymorphy2 – 俄語形態分析器(詞性標註+詞形變化引擎)。
- PyPLN – 用Python編寫的分佈式天然語言處理通道。這個項目的目標是建立一種簡單的方法使用NLTK經過網絡接口處理大語言庫。
瀏覽器自動化與仿真
- selenium – 自動化真正的瀏覽器(Chrome瀏覽器,火狐瀏覽器,Opera瀏覽器,IE瀏覽器)。
- Ghost.py – 對PyQt的webkit的封裝(須要PyQT)。
- Spynner – 對PyQt的webkit的封裝(須要PyQT)。
- Splinter – 通用API瀏覽器模擬器(selenium web驅動,Django客戶端,Zope)。
多重處理
異步
異步網絡編程庫python
隊列
- celery – 基於分佈式消息傳遞的異步任務隊列/做業隊列。
- huey – 小型多線程任務隊列。
- mrq – Mr. Queue – 使用redis & Gevent 的Python分佈式工做任務隊列。
- RQ – 基於Redis的輕量級任務隊列管理器。
- simpleq – 一個簡單的,可無限擴展,基於Amazon SQS的隊列。
- python-gearman – Gearman的Python API。
雲計算
電子郵件
電子郵件解析庫git
網址和網絡地址操做
解析/修改網址和網絡地址庫。github
- URL
- furl – 一個小的Python庫,使得操縱URL簡單化。
- purl – 一個簡單的不可改變的URL以及一個乾淨的用於調試和操做的API。
- urllib.parse – 用於打破統一資源定位器(URL)的字符串在組件(尋址方案,網絡位置,路徑等)之間的隔斷,爲告終合組件到一個URL字符串,並將「相對URL」轉化爲一個絕對URL,稱之爲「基本URL」。
- tldextract – 從URL的註冊域和子域中準確分離TLD,使用公共後綴列表。
網頁內容提取
提取網頁內容的庫。web
WebSocket
用於WebSocket的庫。正則表達式
DNS解析
- dnsyo – 在全球超過1500個的DNS服務器上檢查你的DNS。
- pycares – c-ares的接口。c-ares是進行DNS請求和異步名稱決議的C語言庫。
計算機視覺
- OpenCV – 開源計算機視覺庫。
- SimpleCV – 用於照相機、圖像處理、特徵提取、格式轉換的簡介,可讀性強的接口(基於OpenCV)。
- mahotas – 快速計算機圖像處理算法(徹底使用 C++ 實現),徹底基於 numpy 的數組做爲它的數據類型。
代理服務器
- tproxy – tproxy是一個簡單的TCP路由代理(第7層),基於Gevent,用Python進行配置。
其餘Python工具列表
歡迎關注本站公眾號,獲取更多信息