新聞類網站的通用爬蟲--GNE

時間 2020-01-04

標籤網站通用爬蟲 gne 欄目網站開發简体版

原文原文鏈接

GNE（GeneralNewsExtractor）是一個通用新聞網站正文抽取模塊，輸入一篇新聞網頁的 HTML，輸出正文內容、標題、做者、發佈時間、正文中的圖片地址和正文所在的標籤源代碼。GNE在提取今日頭條、網易新聞、遊民星空、觀察者網、鳳凰網、騰訊新聞、ReadHub、新浪新聞等數百個中文新聞網站上效果很是出色，幾乎可以達到100%的準確率。html

使用方式很是簡單：python

from gne import GeneralNewsExtractor

extractor = GeneralNewsExtractor()
html = '網站源代碼'
result = extractor.extract(html)
print(result)

　　掃描公衆號查看原文編輯器

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。