文本自動摘要概述

1.文本自動摘要的分類優化

此處只介紹兩種,一種是依據輸入文本數量劃分,一種是摘要和原文的關係劃分。排序

根據輸入文本的數量劃分,文本摘要技術能夠分爲單文檔摘要和多文檔摘要;文檔

根據文摘和原文的關係劃分,能夠分爲摘錄式(extraction)文摘和生成式(abstraction)文摘。摘錄型文摘由原文中抽取出來的片斷組成,理解型文摘是對原文只要內容從新組織後造成的。io

2.文本自動摘要的基本步驟擴展

通常來講,自動文摘過程包括三個基本步驟:方法

(1)文本分析過程:對原文進行分析處理,識別出冗餘信息;im

(2)文本內容的選取泛化過程:從文檔中辨認重要信息,經過摘錄或歸納的方法壓縮文本,或者經過計算分析的方法造成文摘表示;技術

(3)文摘的轉換生成過程:實現對原文內容的重組或者根據內部表示生成文摘,並確保文摘的連貫性統計

  文摘的輸出形式依據文摘的用途和用戶需求肯定。不一樣的系統所採用的具體實現方法不一樣,所以在不一樣的系統中,上述幾個模塊所處理的問題和採用的方法也有所差別。時間

3.文本自動摘要的基本問題

在單文檔摘要系統中,通常都採起基於抽取的方法。而對於多文檔而言,因爲在同一個主題中的不一樣文檔中不可避免地存在信息交疊和信息差別,所以如何避免信息冗餘,同時反映出來自不一樣文檔的信息差別是多文檔文摘中的首要目標,而要實現這個目標一般覺得着要在句子層如下作工做,如對句子進行壓縮,合併,切分等。另外,單文檔的輸出句子通常是按照句子在原文中出現的順序排列,而在多文檔摘要中,大多采用時間順序排列句子,如何準確的獲得每一個句子的時間信息,也是多文檔摘要須要解決的一個問題。

正如前面所說,自動文摘過程包含三個基本步驟,實現這些基本步驟的方法可使基於句子抽取的,也能夠是基於內容理解的。不管哪一種方法,都必須面對三個關鍵問題:

(1)文檔冗餘信息的識別與處理

(2)重要信息的辨認

(3)生成文摘的連貫性

4.抽取式摘要優化點

(1)特徵提取過程當中,除了特徵詞的提取,還能夠提取其餘的基本要素來肯定句子的重要性。如,句子的基本要素經過三元組<中心詞,修飾,關係>來描述,其中中心詞爲該三元組的重要組成部分。

(2)在提取關鍵詞以前,去掉停用詞,而後在你計算詞頻等信息。爲了擴展相同主題下可能出現的同義詞現象,能夠考慮利用同義詞或者替換詞、別稱等信息提升詞頻統計的準確性。

(3)經過橘子的類型,對句子進行一次篩選。如,通常狀況下,劃分句子的時候能夠記錄句子出現的位置信息,在段落的開頭或者結尾會有較大可能出現關鍵詞。句型方面,陳述句通常比感嘆句或者疑問句更有可能出現關鍵詞。

(4)針對多文本輸入的狀況,在關鍵詞提取中,可使用頻繁項集挖掘,並對頻繁項集挖掘獲得的詞項賦予較高權重。

爲了減小摘要句子之間的冗餘度,能夠經過計算句子之間的類似度減小冗餘句子,具體過程以下:

(1)將句子按照其重要性由高到低排序

(2)抽取重要性較高的句子Si

(3)選取候選句子Si後,調整剩下的每一個待選句子的重要性。待選句子Sj的重要性按照公式:Score(Sj)=Score(Sj)-Sim(Si,Sj)*Score(Si)

(4)剩下句子的重要度按照從高到低的順序進行排序,選取重要度較高的句子。

(5)重複步驟三、4,直至摘要足夠長爲止。

相關文章
相關標籤/搜索