GNE(GeneralNewsExtractor)是一個通用新聞網站正文抽取模塊,輸入一篇新聞網頁的 HTML, 輸出正文內容、標題、做者、發佈時間、正文中的圖片地址和正文所在的標籤源代碼。GNE在提取今日頭條、網易新聞、遊民星空、 觀察者網、鳳凰網、騰訊新聞、ReadHub、新浪新聞等數百個中文新聞網站上效果很是出色,幾乎可以達到100%的準確率。html
使用方式很是簡單:python
from gne import GeneralNewsExtractor extractor = GeneralNewsExtractor() html = '網站源代碼' result = extractor.extract(html) print(result)
掃描公衆號查看原文編輯器