自動摘要學習計劃（英語）

時間 2019-11-18

標籤自動摘要學習計劃英語简体版

原文原文鏈接

英語單文檔自動摘要php

（1）針對單文檔的自動摘要包java

　　英語的單文檔摘要目前在國內外已至關成熟，所以在網上可找到許多相關的文檔和源代碼包等。python

sumy（安裝條件：Python 2.7 / 3.3 +和pip （ Windows ， Linux ））　
　　　用於從HTML頁面或純文本提取自動摘要的簡單庫和命令行實用程序。該軟件包還包含用於文本摘要的簡單評估框架。包括：linux
- Luhn - heurestic方法，參考
- Edmundson 基於之前的統計研究的heurestic方法，參考
- 潛在語義分析（Latent Semantic Analysis），LSA - 算法之一來自http://scholar.google.com/citations?user=0fTuW_YAAAAJ&hl=zh-CN我認爲做者如今使用更先進的算法。 Steinberger，J. aJeĹľek，K. Using latent semantic an and summary evaluation。在ISIM '04。 2004.S.93-100 。
- LexRank - 由算法PageRank和HITS 引用的無監督方法
- TextRank - 我在互聯網上找到的一些資源的組合。我真的不記得來源。可能維基百科和一些論文在谷歌的第1頁。
- SumBasic - 在文獻中常常用做基準的方法。資料來源：閱讀SumBasic
- KL-Sum - 貪婪地將句子添加到摘要中的方法，只要它減小KL發散。資料來源：閱讀KL-Sum
　　這裏有一些其餘摘要：git
- - https://github.com/thavelick/summarize/ - Python，TF（很是簡單）
  - Reduction - Python，TextRank（簡單）
  - Open Text Summarizer - C，TF沒有規範化
  - 簡單的程序總結文本 - Python，TF沒有規範化
  - 計算語言學導論 - Java，LexRank
  - Sumtract：UW LING 572的第二個項目 - Python
  - TextTeaser - Scala
  - PyTeaser - Python中的TextTeaser端口
  - Automatic Document Summarizer - Java，Bipartite HITS（無源）
  - Pythia - Python，LexRank＆Centroid
  - SWING - Ruby
  - Topic Networks - R，主題模型和二分圖
  - Almus: Automatic Text Summarizer - Java，LSA（無源代碼）
  - Musutelsa - Java，LSA（老是凍結）
  - http://mff.bajecni.cz/index.php - C ++
  - MEAD - Perl，各類方法+評估框架
　　　詳情見網址https://pypi.python.org/pypi/sumy。sumy在python中還有API可調用。github

　　　此外，有關sumy的源代碼也可在https://github.com/miso-belica/sumy上找到。web
11種最好的開源自動摘要工具包，詳情請見http://www.findbestopensource.com/tagged/summarization。該網站提供了11種最好的開源自動摘要工具包，分別有TextTeaser、Fast-summarizer、Bubble-summarization、Pivotquery、Auto-summarization、Icsisumm、Acrs、Alpha-sum、Unbproteus、Textsum-spring11、Socialskip.
算法

英語多文檔自動摘要spring

（1）針對多文檔的自動摘要包app

PKUSUMSUM（java）支持單文檔，多文檔以及主題相關的多文檔自動摘要。

　　　北大萬小軍老師課題組推出文檔自動摘要小工具PKUSUMSUM，集成多種無監督摘要提取算法，支持多種摘要任務與多種語言，採用Java編寫，代碼徹底開源。說明文檔可見http://www.icst.pku.edu.cn/lcwm/wanxj/pkusumsum.htm。此外，該工具包源碼也可在github（https://github.com/PKULCWM/PKUSUMSUM）上找到。其包含的算法有：

Method	Single-document summarization	Multi-document summarization	Topic-based Multi-document summarization
Coverage	-	Yes	Yes
Lead	Yes	Yes	Yes
Centroid [1]	Yes	Yes	Yes
TextRank [2]	Yes	Yes	-
LexPageRank[3]	Yes	Yes	-
ILP [4]	Yes	Yes	-
Submodular1 [5]	Yes	Yes	-
Submodular2 [6]	Yes	Yes	-
ClusterCMRW[7]	-	Yes	-
ManifoldRank[8]	-	-	Yes

因項目須要，本人及其項目組成員用java改寫的代碼也即將上傳到github上，網址稍後會公佈。（傳懋負責）

　　2. Sumbasic算法（python語言，2005年）

　　相關代碼見https://github.com/hardik-vala/sum-basic。

　　在該份代碼中，SumBasic有三種算法版本：

　　（1）leading版本：經過在第一個文檔中引用句子來總結文檔，直到達到字限制。

　　（2）original版本：使用原始SUMBASIC算法彙總文檔。原始SUMBASIC算法描述以下：

　　SumBasic算法是由Nenkova和Vanderwende於2005年提出的基於詞頻的多文檔抽取式文摘方法[1].他們認爲文檔集合中非停用詞的相對頻率能夠較爲準確地反映該詞是否出如今專家文摘中.在SumBasic算法中每一個句子S都賦予一個反映它所包含的詞頻的權值:

.(1)

式中:爲一元機率觀察值,使用最大似然估計計算時近似等於該詞在語料庫中出現次數佔總詞數的比例.

根據式(1)計算句子的分值,並按分值將句子由高到低添加到文摘中,直到達到限制的文摘字數,由該方法獲得的模型記爲Unigram.在SumBasic算法中已經選爲文摘的句子中單詞的機率變爲原機率的平方:,即選中單詞的機率逐漸變小,從而下降文摘的冗餘度.雖然SumBasic算法的思想很是簡單,但取得了不錯的效果[2].

　　（3）simplified版本：簡化的SUMBASIC算法，它保持字數不變，不包含非冗餘更新。

引用文獻：

[1] NENKOVA A, VANDERWENDE L.The impact of frequency on summarization:MSR-TR-2005-101[ R] .Redmond, USA:MicrosoftResearch, 2005

[2]Haghighi A, Vanderwende L. Exploring content models for multi-document summarization[C]// Human Language Technologies: the 2009 Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2009:362-370.