自動摘要(或摘要技術Automatic Summarization),顧名思義,是指從單篇或者多篇文章中,摘取要點來歸納文章大意的技術。它在機器學習和數據挖掘中有着重要的地位。html
在這篇文章中,將要詳細談一談自動摘要算法實現,以及玻森進行的優化。(對於自動摘要概念有興趣想深刻了解的讀者能夠自行搜索,該篇文章中在這方面不做詳細介紹。)算法
自動摘要能夠分爲籠統式和查詢式。因爲查詢式摘要的應用場景較爲特定,籠統式摘要成爲現階段主流,它也能在很大程度上知足人們對摘要的需求。所以玻森的新聞摘要是籠統式抽取摘要。機器學習
玻森採用的是最大邊緣相關模型(Maximal Marginal Relevance)的一個變種。MMR是無監督學習模型,它的提出是爲了提升信息檢索(Information Retrieval)系統的表現。例如搜索引擎就是目前你們最經常使用的信息檢索系統。你們可能常常會碰到,對於咱們輸入的一個關鍵詞,搜索引擎一般會給出重複的或者內容太接近的檢索的狀況。爲了不這個現象,搜索引擎能夠經過MMR來增長內容的多樣性,給出多方面考慮的檢索結果,以此來提升表現。學習
這樣的思想是能夠被借鑑用來作摘要的,由於它是符合摘要的基本要求的,即權衡相關性和多樣性。不難理解,摘要結果與原文的相關性越高,它就接近全文中心意思。而考慮多樣性則使得摘要內容更加的全面。很是的直觀和簡單是該模型的一個優勢。優化
相比於其餘無監督學習方法,如TextRank(TR), PageRank(PR)等,MMR是考慮了信息的多樣性來避免重複結果。TR,PR是基於圖(Graph)的學習方法,每一個句子當作點,每兩個點之間都有一條帶權重(Weighted)的無向邊。邊的權重隱式定義了不一樣句子間的遊走機率。這些方法把作摘要的問題當作隨機遊走來找出穩態分佈(Stable Distribution)下的高几率(重要)的句子集,但缺點之一即是沒法避免選出來的句子相互之間的類似度極高的現象。搜索引擎
而MMR方法能夠較好地解決句子選擇多樣性的問題。具體地說,在MMR模型中,同時將相關性和多樣性進行衡量。所以,能夠方便的調節相關性和多樣性的權重來知足偏向「須要類似的內容」或者偏向「須要不一樣方面的內容」的要求。對於相關性和多樣性的具體評估,玻森是經過定義句子之間的語義類似度實現。句子類似度越高,則相關性越高而多樣性越低。spa
自動摘要的核心即是要從原文句子中選一個句子集合,使得該集合在相關性與多樣性的評測標準下,得分最高。數學表達式以下。
須要注意的是,D,Q,R,S都爲句子集,其中,D表示當前文章,Q表示當前中心意思,R表示當前非摘要,S表示當前摘要。orm
能夠看出,在給定句子類似度的狀況下,上述MMR的求解爲一個標準的最優化問題。可是,上述無監督學習的MMR所得摘要準確性較低,由於全文的結構信息難以被建模,如段落首句應當有更高的權重等。爲了提升新聞自動摘要的表現,玻森在模型中加入了全文結構特徵,將MMR改成有監督學習方法。從而模型即可以經過訓練從「標準摘要」中學習特徵以提升準確性。htm
玻森採用摘要公認的Bi-gram ROUGE F1方法來判斷自動生成的摘要和「標準摘要」的接近程度。通過訓練,玻森在訓練數集上的表現相對於未學習的摘要結果有了明顯的提高——訓練後的摘要系統F1提升了30%。值得一提的是,在特徵訓練中,爲了改善摘要結果的可讀性,玻森加指代關係特徵,使得模型表現提升了8%。索引
摘要引擎的具體調用API能夠參見文檔