網頁正文抽取技術模塊和模型介紹

時間 2019-11-10

標籤網頁正文抽取技術模塊模型介紹欄目 HTML 简体版

原文原文鏈接

同一個網站發佈的網頁每每是模板沒有變化，變化的都是網頁的主體內容，也就是正文。這是由於如今絕大多數的網站基於網頁生成模板去產生網頁，網頁中的數據通常直接經過查詢從數據庫中調出，而後將查詢結果放到網頁的特定位置。算法

網頁抽取通常經常使用的算法DTE算法正是基於這樣一個事實：同一個站點的不一樣頁面一般是由同一個或一組HTML模板生成，它們的結構相同或者很類似，僅僅主體信息部分的內容不一樣。而這也是動態網頁快速發展帶來的結果，即使是網站出於性能考慮將頁面生成爲靜態網頁，也絕大多數基於模板。數據庫

正文抽取算法主要有兩個步驟：第一步是利用類似嘲頁概括模板；第二步是經過模板匹配抽取網頁正文。性能

上面兩張圖是網頁正文抽取原型系統的主要功能模塊和模型。網站

網頁正文抽取技術對於信息交換共享、搜索引擎自動摘要生成、網頁文檔分類以及PDA設備信息展現、幫助閱讀有障礙的人羣等諸多領域的應用是一個很重要的前提工做。文章僅介紹了兩個功能模塊和抽取模型，可是對於網頁正文抽取的精確率還有不少工做要作。搜索引擎

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。