新聞類網站的通用爬蟲--GNE

 

GNE(GeneralNewsExtractor)是一個通用新聞網站正文抽取模塊,輸入一篇新聞網頁的 HTML, 輸出正文內容、標題、做者、發佈時間、正文中的圖片地址和正文所在的標籤源代碼。GNE在提取今日頭條、網易新聞、遊民星空、 觀察者網、鳳凰網、騰訊新聞、ReadHub、新浪新聞等數百個中文新聞網站上效果很是出色,幾乎可以達到100%的準確率。html

使用方式很是簡單:python

from gne import GeneralNewsExtractor

extractor = GeneralNewsExtractor()
html = '網站源代碼'
result = extractor.extract(html)
print(result)

  掃描公衆號查看原文編輯器

相關文章
相關標籤/搜索