Event StoryLine Corpus 論文閱讀

Event StoryLine Corpus 論文閱讀

本文是對 Caselli T, Vossen P. The event storyline corpus: A new benchmark for causal and temporal relation extraction[C]//Proceedings of the Events and Stories in the News Workshop. 2017: 77-86. 閱讀的總結。有任何問題請郵件聯繫 arrogant262@gmail.comgit

Content

Section Description
The Event StoryLine Corpus v0.9 描述標註方式
Experiments: Baselines StoryLine Extraction task baseline
Related Work 回顧之前的標註語料,分析異同
Conclusion and Future Works 總結,將來方向

開源地址:https://github.com/cltl/EventStoryLine.gitgithub

The Event StoryLine Corpus v0.9

ESC v0.9 的主要目標是爲 event-centric StoryLine Extraction 任務提供評價基準。該任務能夠描述爲如下三個子任務的結合:web

  • Event Detection and Classification 事件的識別的分類
  • Temporal Anchoring of Events 將說起的每一個事件錨定到表示其發生時間的時態表達式,以及文檔建立時間(DCT)
  • Explanatory Relation Identification and Classification 選擇時序或邏輯相關的事件對進行關係分類

storyline relation定義爲事件之間的一種鬆散的因果或時序關係,一件事的說起解釋了/證實了另外一件事的發生(更多地細節在Section ~.3)。markdown

storyline relation能夠被分類爲 rising action 或 falling actionapp

An additional task is Event Co-reference Resolution,感興趣的研究員能夠閱讀原文,這一不作進一步描述。ide

事件和時序的表達式

事件和時序的表達式是 ESC v0.9 語料標註體系的基礎。學習

本文所指的「事件「包含靜態和動態兩個方面,既包括一般事件的發生,又包括處於某種狀態。對於」事件「的定義是 nlp 領域熱議可是還沒有達成一致的話題。文章採納的是 ECB+ Annotation Guidelines 提出的定義,該定義也兼容 ACE 和 TimeML 。ui

事件的定義 事件是發生或保持的,任意即時的、持物的或靜態的情景,由四部分組成:.net

  1. 動做:保持在什麼狀態或發生了什麼
  2. 時間:標定事件保持的時間或發生的時間
  3. 地點:將動做和地點聯繫起來
  4. 參與者:動做涉及到誰、什麼

In particular, an event is any punctual, durational, or stative situation which happens or holds, and which results from a combination of four components such as:設計

1) an action component referring to what happens or holds;

2) a time slot which is responsible for anchoring the action in time ;

3) a location component which links the action component to a place/location;

4) a participant component, which illustrates the 「who」 or 「what」 is involved in the action component.

事件標註邊界的界定 這裏論文講的很含糊。不考慮詞性,只有做爲動做含義的承受者的詞項被標註。這一般是由於詞組的開頭是動做。例子以下,事件用黑色標記

  1. This terrible war could have ended in a month

時序關係標註 參考 TIMEX3 標註準則,修改 ECB+ 標註準則。細節本文不進一步描述,可查看原論文學習。

不進一步描述,本文關注的重點是因果關係部分。

事件對之間的 explanatory relations 用 PLOT_LINK 標籤描述,和先前的研究 Caselli and Vossen (2016) 保持一致。PLOT_LINK設計用來捕捉 the semantics of plot structures ,即情節結構的語義信息。

PLOT_LINK有兩種類別:

  1. rising_action:事件間接的、引發、致使另外一事件
  2. falling_action:顯示的標出推測和結論,事件是另外一事件的(預期的)結果或影響。

rising action, events which are circumstantial to, cause or enable another event

falling action, which explicitly mark speculations and consequences, i.e. events which are the (anticipated) outcome or the effect of another event.

PLOT_LINK 和因果、時序關係有必定的關聯,可是也有區別:

  1. PLOT_LINK 包含因果,也包含其餘關係:它包括權變關係、子事件關係、蘊涵關係和共同參與關係
  2. 一般沒有經過詞法結構顯式的代表,是基於語義分析理解獲得的關係
  3. 比起時序關係中的事件,PLOT_LINK 中的事件更加具體。他們添加了 explanatory information

PLOT_LINK 關係旨在幫助讀者創建事件之間的語義關係。

PLOT_LINK是單向非傳遞的。考慮到這類關係的性質,非傳遞性是合理的。它們應用於事件對之間的本地級別的分析,而且不能被轉移到全局級別,也就是說,被有助於識別故事線的整個事件鏈所繼承。儘管受時間順序的制約,這種關係的目的是使(新聞)故事中事件的連貫性或邏輯聯繫變得清晰。

至此咱們可以對 PLOT_LINK 所表達的含義有一個更清晰的認識。PLOT_LINK 表達 explanatory relations ,即說明性的、幫助讀者理解的關係信息。從標註結果上來看,和因果關係的重疊更多。

除此以外,PLOT_LINK還有參數來標記顯式的因果關係,即存在觸發詞來突出因果關係( e.g. because, from, for, among others)。因爲該標註沒有標記隱式因果關係,應用價值不大,不作進一步討論。

Event Co-reference

事件的共指信息爲外部數據的引入,以及多文檔間的信息去重、融合等操做提供可能。
非關注重點,不作進一步描述。

Data Statistics

經過上述信息,能夠沒有困難的閱讀原文對應段落。

Experiments: Baselines

吃個飯,回來再寫。

Conclusion and Future Works

本文提出了 ESC v0.9 ,是 StoryLine Extraction task 的第一個基準。同時提出了3個baseline系統來完成任務。這項任務的目標和以往的時序、因果關係抽取不一樣。相比時序任務,StoryLine Extraction task 只考慮和同一故事相關的事件。相比於因果任務,StoryLine Extraction task 比因果更加寬泛,包含了因果關係。該任務對敘事模型的創建頗有幫助,敘事模型容許咱們對新聞中的常見敘事結果進行學習。同時該任務提出的共指事件關係也爲多文檔摘要系統提供幫助。

將來,該語料庫將進一步拓展。經過 crowd-sourcing (衆包)的方式來拓展數量,同時增長 climax event 標籤,來標註故事中的主題事件集合。除此以外,魯棒性更高的系統將被開發。

參考資料

  1. Caselli T, Vossen P. The event storyline corpus: A new benchmark for causal and temporal relation extraction[C]//Proceedings of the Events and Stories in the News Workshop. 2017: 77-86.

共享協議

本文由 ArrogantL 整理並在 CC BY-NC-SA 3.0 協議下發布。

請各位遵循 Markdown: License 及其它參考文獻的共享協議來使用、修改和發佈。

相關文章
相關標籤/搜索