給你們分享一篇 etlpy: 並行爬蟲和數據清洗工具(開源)

etlpy是python編寫的網頁數據抓取和清洗工具,核心文件etl.py不超過500行,具有以下特色html 爬蟲和清洗邏輯基於xml定義,不需手工編寫 基於python生成器,流式處理,對內存無要求 內置線程池,支持串行和並行處理 內置正則解析,html轉義,json轉換等數據清洗功能,直接輸出可用文件 插件式設計,可以很是方便地增長其餘文件和數據庫格式 可以支持幾乎一切網站,能自動填入coo
相關文章
相關標籤/搜索