Python即時網絡爬蟲項目: 內容提取器的定義(Python2.7版本)

時間 2019-11-20

標籤 python 即時網絡爬蟲項目內容提取定義 python2.7 版本欄目 Python 简体版

原文原文鏈接

1. 項目背景html

在Python即時網絡爬蟲項目啓動說明中咱們討論一個數字：程序員浪費在調測內容提取規則上的時間太多了（見上圖），從而咱們發起了這個項目，把程序員從繁瑣的調測規則中解放出來，投入到更高端的數據處理工做中。

這個項目推出之後受到很大關注，由於開放源碼，你們能夠在現成源碼基礎上進一步開發。然而，Python3和Python2是有區別的，《Python即時網絡爬蟲項目: 內容提取器的定義》一文的源碼沒法在Python2.7下使用，本文將發佈一個Python2.7的內容提取器。

2. 解決方案python

爲了解決這個問題，咱們把影響通用性和工做效率的提取器隔離出來，描述了以下的數據處理流程圖：git

圖中「可插拔提取器」必須很強的模塊化，那麼關鍵的接口有：
程序員

標準化的輸入：以標準的HTML DOM對象爲輸入
標準化的內容提取：使用標準的xslt模板提取網頁內容
標準化的輸出：以標準的XML格式輸出從網頁上提取到的內容
明確的提取器插拔接口：提取器是一個明肯定義的類，經過類方法與爬蟲引擎模塊交互

3. 提取器代碼github

可插拔提取器是即時網絡爬蟲項目的核心組件，定義成一個類： GsExtractor
適用python2.7的源代碼文件及其說明文檔請從 github 下載

使用模式是這樣的：
api

實例化一個GsExtractor對象
爲這個對象設定xslt提取器，至關於把這個對象配置好（使用三類setXXX()方法）
把html dom輸入給它，就能得到xml輸出（使用extract()方法）

下面是這個GsExtractor類的源代碼(適用於Python2.7)網絡

4. 用法示例dom

下面是一個示例程序，演示怎樣使用GsExtractor類提取豆瓣討論組話題。本示例有以下特徵：
python2.7

提取器的內容經過GooSeeker平臺上的api得到
保存結果文件到當前文件夾

下面是源代碼，均可從 github 下載模塊化

提取結果以下圖所示：

5. 接下來閱讀

本文已經說明了提取器的價值和用法，可是沒有說怎樣生成它，只有快速生成提取器才能達到節省開發者時間的目的，這個問題將在其餘文章講解，請看《1分鐘快速生成用於網頁內容提取的xslt模板》

6. 集搜客GooSeeker開源代碼下載源

1. GooSeeker開源Python網絡爬蟲GitHub源

7. 文檔修改歷史
2016-08-05：V1.0，Python2.7下的內容提取器類首次發佈

相關文章

相關標籤/搜索

python 網絡爬蟲

python網絡爬蟲

用Python寫網絡爬蟲

Python網絡爬蟲三

精通python網絡爬蟲

Python網絡爬蟲二

Python網絡爬蟲四

紅包項目實戰

瀏覽器信息

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<