Natural Language Generation/Abstractive Summarization

調研目的:

瞭解生成式文本摘要的經常使用技術和當前的發展趨勢,明確當前項目有什麼樣的摘要需求,判斷現有技術可否用於知足當前的需求,進一步明確畢業設計方向及其可行性express

調研方向:

  • 項目中須要用到摘要的地方以及區別
  • 數據集(研究用評測集/項目用大規模數據集)
  • 現有技術
    • 分類
      • 有監督
      • 無監督
      • 半監督等(若是有)
    • 效果
    • 優點和缺點
  • 評價現有技術用於當前項目的可行性
  • 擴展:尋找現有技術的研究改進方向

項目中用到摘要的地方

  • 傳統新聞摘要任務
    • 單/多文檔新聞摘要生成
  • 非傳統摘要任務
    • 標題生成
    • 特色
      • 篇幅通常較短
      • 不一樣位置的內容對摘要沒有影響
      • 觀點可能包含多種(受限於聚類效果),至關於噪聲數據

評價方法

  • 自動評價方法: Rouge
    • 基於N元模型,判斷生成的摘要與參考摘要N元組重複比例
    • 自動評價方法自己也是被研究的對象
  • 人工評價方法
    • 由人對摘要內容進行打分,包括可讀性、綜合質量等。

數據集

  • LCSTS
    • 哈工大中文微博摘要數據集
    • 數據集內容
      • part1: 2.4m訓練數據, (短文本,摘要)對
      • part2: 1w標註數據,給摘要和短文本的相關程度打分(1~5),用來去除part1中的噪聲數據
      • part3: 1.1k對訓練數據,獨立於part1&2,由3人對摘要打分,通常保留3分以上的做爲摘要訓練數據
    • 數據量很是大,噪聲很是大
  • DUC2004/Gigaword
    • 抽取式摘要數據集
    • 單句話摘要
  • CNN/Daily Mail
    • 生成式摘要數據集
    • 摘要包含多個句子,可是長度不是太長

思路

  • Seq2seq + Attention(RNN->CNN)
  • Pointer/Generation、CopyNet機制,以及其它的機制
  • Extractor + Abstractor
  • Reinforcement Learning
  • GAN、unsupervised learning

<!-- ## Techniques -->ide

General

  • Category: text-to-text, data-to-text, image/video-to-text
  • Tasks:
    • Content determination 肯定生成內容
    • Text structuring 肯定生成結構
    • Sentence aggregation 句子聚合
    • Lexicalisation 詞法實現
    • Referring expression generation 指代生成
    • Linguistic realisation 語言實現
  • Example:
    • snow.jpg
    • 有一個穿紅衣服的小孩子,在雪地裏堆雪人。
  • Example:
    • 高鐵車票「無紙化」
      近日,中國鐵路總公司...
      乘客或可實現「刷手機」、「刷身份證」直接進站乘車,而不須要在乘車以前特地換取紙質車票。...
      最快今年四季度,中國鐵路電子客票業務將開展試點運營。
      ...
    • 最快今年四季度,乘客可直接刷手機或身份證直接進站乘坐高鐵火車。

Text-to-Text

  • Document Summarization(abstractive)
    • Systems: NeATS, NewsBlaster, NewsInEssence, Summly
    • Evaluation: ROUGE
    • Tasks:
    • Category:
      • single/multi document summarization
    • Seq-to-Seq
      • attention mechanism
      • copying mechanism: 考慮到摘要中的不少字和原文相同,拷貝機制容許直接拷貝輸入中的字做爲輸出,而不是老是經過隱層狀態來生成字。
      • Reinforcement Learning: 直接經過Rouge來進行優化比decoder輸出的結果的似然函數來優化效果更好
      • limit length
  • Sentence Compression & Fusion
    • few researches
  • Paraphrase Generation
    • few researches

Data-to-Text

Image/Video-to-Text

相關文章
相關標籤/搜索