調研目的:
瞭解生成式文本摘要的經常使用技術和當前的發展趨勢,明確當前項目有什麼樣的摘要需求,判斷現有技術可否用於知足當前的需求,進一步明確畢業設計方向及其可行性express
調研方向:
- 項目中須要用到摘要的地方以及區別
- 數據集(研究用評測集/項目用大規模數據集)
- 現有技術
- 評價現有技術用於當前項目的可行性
- 擴展:尋找現有技術的研究改進方向
項目中用到摘要的地方
- 傳統新聞摘要任務
- 非傳統摘要任務
- 標題生成
- 特色
- 篇幅通常較短
- 不一樣位置的內容對摘要沒有影響
- 觀點可能包含多種(受限於聚類效果),至關於噪聲數據
評價方法
- 自動評價方法: Rouge
- 基於N元模型,判斷生成的摘要與參考摘要N元組重複比例
- 自動評價方法自己也是被研究的對象
- 人工評價方法
數據集
- LCSTS
- 哈工大中文微博摘要數據集
- 數據集內容
- part1: 2.4m訓練數據, (短文本,摘要)對
- part2: 1w標註數據,給摘要和短文本的相關程度打分(1~5),用來去除part1中的噪聲數據
- part3: 1.1k對訓練數據,獨立於part1&2,由3人對摘要打分,通常保留3分以上的做爲摘要訓練數據
- 數據量很是大,噪聲很是大
- DUC2004/Gigaword
- CNN/Daily Mail
- 生成式摘要數據集
- 摘要包含多個句子,可是長度不是太長
思路
- Seq2seq + Attention(RNN->CNN)
- Pointer/Generation、CopyNet機制,以及其它的機制
- Extractor + Abstractor
- Reinforcement Learning
- GAN、unsupervised learning
<!-- ## Techniques -->ide
General
- Category: text-to-text, data-to-text, image/video-to-text
- Tasks:
- Content determination 肯定生成內容
- Text structuring 肯定生成結構
- Sentence aggregation 句子聚合
- Lexicalisation 詞法實現
- Referring expression generation 指代生成
- Linguistic realisation 語言實現
- Example:
- 有一個穿紅衣服的小孩子,在雪地裏堆雪人。
- Example:
- 高鐵車票「無紙化」
近日,中國鐵路總公司...
乘客或可實現「刷手機」、「刷身份證」直接進站乘車,而不須要在乘車以前特地換取紙質車票。...
最快今年四季度,中國鐵路電子客票業務將開展試點運營。
...
- 最快今年四季度,乘客可直接刷手機或身份證直接進站乘坐高鐵火車。
Text-to-Text
- Document Summarization(abstractive)
- Systems: NeATS, NewsBlaster, NewsInEssence, Summly
- Evaluation: ROUGE
- Tasks:
- Category:
- single/multi document summarization
- Seq-to-Seq
- attention mechanism
- copying mechanism: 考慮到摘要中的不少字和原文相同,拷貝機制容許直接拷貝輸入中的字做爲輸出,而不是老是經過隱層狀態來生成字。
- Reinforcement Learning: 直接經過Rouge來進行優化比decoder輸出的結果的似然函數來優化效果更好
- limit length
- Sentence Compression & Fusion
- Paraphrase Generation
Data-to-Text
Image/Video-to-Text