同一個網站發佈的網頁每每是模板沒有變化,變化的都是網頁的主體內容,也就是正文。這是由於如今絕大多數的網站基於網頁生成模板去產生網頁,網頁中的數據通常直接經過查詢從數據庫中調出,而後將查詢結果放到網頁的特定位置。算法
網頁抽取通常經常使用的算法DTE算法正是基於這樣一個事實:同一個站點的不一樣頁面一般是由同一個或一組HTML模板生成,它們的結構相同或者很類似,僅僅主體信息部分的內容不一樣。而這也是動態網頁快速發展帶來的結果,即使是網站出於性能考慮將頁面生成爲靜態網頁,也絕大多數基於模板。數據庫
正文抽取算法主要有兩個步驟:第一步是利用類似嘲頁概括模板;第二步是經過模板匹配抽取網頁正文。性能
上面兩張圖是網頁正文抽取原型系統的主要功能模塊和模型。網站
網頁正文抽取技術對於信息交換共享、搜索引擎自動摘要生成、網頁文檔分類以及PDA設備信息展現、幫助閱讀有障礙的人羣等諸多領域的應用是一個很重要的前提工做。文章僅介紹了兩個功能模塊和抽取模型,可是對於網頁正文抽取的精確率還有不少工做要作。搜索引擎