Natural Language Generation/Abstractive Summarization

時間 2020-05-23

標籤 natural language generation abstractive summarization 简体版

原文原文鏈接

調研目的：

瞭解生成式文本摘要的經常使用技術和當前的發展趨勢，明確當前項目有什麼樣的摘要需求，判斷現有技術可否用於知足當前的需求，進一步明確畢業設計方向及其可行性express

調研方向：

項目中須要用到摘要的地方以及區別
數據集(研究用評測集/項目用大規模數據集)
現有技術
- 分類
  - 有監督
  - 無監督
  - 半監督等（若是有）
- 效果
- 優點和缺點
評價現有技術用於當前項目的可行性
擴展：尋找現有技術的研究改進方向

項目中用到摘要的地方

傳統新聞摘要任務
- 單/多文檔新聞摘要生成
非傳統摘要任務
- 標題生成
- 特色
  - 篇幅通常較短
  - 不一樣位置的內容對摘要沒有影響
  - 觀點可能包含多種（受限於聚類效果），至關於噪聲數據

評價方法

自動評價方法: Rouge
- 基於N元模型，判斷生成的摘要與參考摘要N元組重複比例
- 自動評價方法自己也是被研究的對象
人工評價方法
- 由人對摘要內容進行打分，包括可讀性、綜合質量等。

數據集

LCSTS
- 哈工大中文微博摘要數據集
- 數據集內容
  - part1: 2.4m訓練數據，（短文本，摘要）對
  - part2: 1w標註數據，給摘要和短文本的相關程度打分（1~5），用來去除part1中的噪聲數據
  - part3: 1.1k對訓練數據，獨立於part1&2，由3人對摘要打分，通常保留3分以上的做爲摘要訓練數據
- 數據量很是大，噪聲很是大
DUC2004/Gigaword
- 抽取式摘要數據集
- 單句話摘要
CNN/Daily Mail
- 生成式摘要數據集
- 摘要包含多個句子，可是長度不是太長

思路

Seq2seq + Attention(RNN->CNN)
Pointer/Generation、CopyNet機制，以及其它的機制
Extractor + Abstractor
Reinforcement Learning
GAN、unsupervised learning

ide

General

Category: text-to-text, data-to-text, image/video-to-text
Tasks:
- Content determination 肯定生成內容
- Text structuring 肯定生成結構
- Sentence aggregation 句子聚合
- Lexicalisation 詞法實現
- Referring expression generation 指代生成
- Linguistic realisation 語言實現
Example:
- 有一個穿紅衣服的小孩子，在雪地裏堆雪人。
Example:
- 高鐵車票「無紙化」
  近日，中國鐵路總公司...
  乘客或可實現「刷手機」、「刷身份證」直接進站乘車，而不須要在乘車以前特地換取紙質車票。...
  最快今年四季度，中國鐵路電子客票業務將開展試點運營。
  ...
- 最快今年四季度，乘客可直接刷手機或身份證直接進站乘坐高鐵火車。

Text-to-Text

Document Summarization(abstractive)
- Systems: NeATS, NewsBlaster, NewsInEssence, Summly
- Evaluation: ROUGE
- Tasks:
- Category:
  - single/multi document summarization
- Seq-to-Seq
  - attention mechanism
  - copying mechanism: 考慮到摘要中的不少字和原文相同，拷貝機制容許直接拷貝輸入中的字做爲輸出，而不是老是經過隱層狀態來生成字。
  - Reinforcement Learning: 直接經過Rouge來進行優化比decoder輸出的結果的似然函數來優化效果更好
  - limit length
Sentence Compression & Fusion
- few researches
Paraphrase Generation
- few researches

Data-to-Text

Image/Video-to-Text

相關文章

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<