GNE v0.04版更新，支持提取正文圖片與源代碼

時間 2019-11-29

標籤 gne v0.04 更新支持提取正文圖片源代碼简体版

原文原文鏈接

GeneralNewsExtractor如下簡稱GNE是一個新聞網頁通用抽取器，可以在不指定任何抽取規則的狀況下，把新聞網站的正文提取出來。html

咱們來看一下它的基本使用方法。python

安裝 GNE

使用 pip 安裝：git

pip install --upgrade git+https://github.com/kingname/GeneralNewsExtractor.git
複製代碼

固然你也可使用pipenv安裝：github

pipenv install git+https://github.com/kingname/GeneralNewsExtractor.git#egg=gne
複製代碼

獲取新聞網頁源代碼

GNE 如今不會，未來也不會提供網頁請求的功能，因此你須要自行想辦法獲取通過渲染之後的網頁源代碼。你可使用Selenium或者Pyppeteer或者直接從瀏覽器上覆制。瀏覽器

這裏演示如何直接從瀏覽器中複製網頁的源代碼：bash

在 Chrome 瀏覽器中打開對應頁面，而後開啓開發者工具，以下圖所示：

在Elements標籤頁定位到標籤，並右鍵，選擇Copy-Copy OuterHTML，以下圖所示

把源代碼保存爲1.html

提取正文信息

編寫以下代碼：工具

from gne import GeneralNewsExtractor

with open('1.html') as f:
    html = f.read()

extractor = GeneralNewsExtractor()
result = extractor.extract(html)
print(result)
複製代碼

運行效果以下圖所示：網站

此次更新了什麼

在最新更新的 v0.04版本中，開放了正文圖片提取功能，與返回正文源代碼功能。其中返回圖片 URL 的功能在上面已經演示了，結果中的images字段就是正文中的圖片。spa

那麼怎麼返回正文源代碼呢？只須要增長一個參數with_body_html=True便可：code

from gne import GeneralNewsExtractor

with open('1.html') as f:
    html = f.read()

extractor = GeneralNewsExtractor()
result = extractor.extract(html, with_body_html=True)
print(result)
複製代碼

運行效果以下圖所示：