本文是對 Caselli T, Vossen P. The event storyline corpus: A new benchmark for causal and temporal relation extraction[C]//Proceedings of the Events and Stories in the News Workshop. 2017: 77-86. 閱讀的總結。有任何問題請郵件聯繫 arrogant262@gmail.comgit
Section | Description |
---|---|
The Event StoryLine Corpus v0.9 | 描述標註方式 |
Experiments: Baselines | StoryLine Extraction task baseline |
Related Work | 回顧之前的標註語料,分析異同 |
Conclusion and Future Works | 總結,將來方向 |
開源地址:https://github.com/cltl/EventStoryLine.gitgithub
ESC v0.9 的主要目標是爲 event-centric StoryLine Extraction 任務提供評價基準。該任務能夠描述爲如下三個子任務的結合:web
storyline relation定義爲事件之間的一種鬆散的因果或時序關係,一件事的說起解釋了/證實了另外一件事的發生(更多地細節在Section ~.3)。markdown
storyline relation能夠被分類爲 rising action 或 falling actionapp
An additional task is Event Co-reference Resolution,感興趣的研究員能夠閱讀原文,這一不作進一步描述。ide
事件和時序的表達式是 ESC v0.9 語料標註體系的基礎。學習
本文所指的「事件「包含靜態和動態兩個方面,既包括一般事件的發生,又包括處於某種狀態。對於」事件「的定義是 nlp 領域熱議可是還沒有達成一致的話題。文章採納的是 ECB+ Annotation Guidelines 提出的定義,該定義也兼容 ACE 和 TimeML 。ui
事件的定義 事件是發生或保持的,任意即時的、持物的或靜態的情景,由四部分組成:.net
In particular, an event is any punctual, durational, or stative situation which happens or holds, and which results from a combination of four components such as:設計
1) an action component referring to what happens or holds;
2) a time slot which is responsible for anchoring the action in time ;
3) a location component which links the action component to a place/location;
4) a participant component, which illustrates the 「who」 or 「what」 is involved in the action component.
事件標註邊界的界定 這裏論文講的很含糊。不考慮詞性,只有做爲動做含義的承受者的詞項被標註。這一般是由於詞組的開頭是動做。例子以下,事件用黑色標記
時序關係標註 參考 TIMEX3 標註準則,修改 ECB+ 標註準則。細節本文不進一步描述,可查看原論文學習。
不進一步描述,本文關注的重點是因果關係部分。
事件對之間的 explanatory relations 用 PLOT_LINK 標籤描述,和先前的研究 Caselli and Vossen (2016) 保持一致。PLOT_LINK設計用來捕捉 the semantics of plot structures ,即情節結構的語義信息。
PLOT_LINK有兩種類別:
rising action, events which are circumstantial to, cause or enable another event
falling action, which explicitly mark speculations and consequences, i.e. events which are the (anticipated) outcome or the effect of another event.
PLOT_LINK 和因果、時序關係有必定的關聯,可是也有區別:
PLOT_LINK 關係旨在幫助讀者創建事件之間的語義關係。
PLOT_LINK是單向非傳遞的。考慮到這類關係的性質,非傳遞性是合理的。它們應用於事件對之間的本地級別的分析,而且不能被轉移到全局級別,也就是說,被有助於識別故事線的整個事件鏈所繼承。儘管受時間順序的制約,這種關係的目的是使(新聞)故事中事件的連貫性或邏輯聯繫變得清晰。
至此咱們可以對 PLOT_LINK 所表達的含義有一個更清晰的認識。PLOT_LINK 表達 explanatory relations ,即說明性的、幫助讀者理解的關係信息。從標註結果上來看,和因果關係的重疊更多。
除此以外,PLOT_LINK還有參數來標記顯式的因果關係,即存在觸發詞來突出因果關係( e.g. because, from, for, among others)。因爲該標註沒有標記隱式因果關係,應用價值不大,不作進一步討論。
事件的共指信息爲外部數據的引入,以及多文檔間的信息去重、融合等操做提供可能。
非關注重點,不作進一步描述。
經過上述信息,能夠沒有困難的閱讀原文對應段落。
吃個飯,回來再寫。
本文提出了 ESC v0.9 ,是 StoryLine Extraction task 的第一個基準。同時提出了3個baseline系統來完成任務。這項任務的目標和以往的時序、因果關係抽取不一樣。相比時序任務,StoryLine Extraction task 只考慮和同一故事相關的事件。相比於因果任務,StoryLine Extraction task 比因果更加寬泛,包含了因果關係。該任務對敘事模型的創建頗有幫助,敘事模型容許咱們對新聞中的常見敘事結果進行學習。同時該任務提出的共指事件關係也爲多文檔摘要系統提供幫助。
將來,該語料庫將進一步拓展。經過 crowd-sourcing (衆包)的方式來拓展數量,同時增長 climax event 標籤,來標註故事中的主題事件集合。除此以外,魯棒性更高的系統將被開發。
本文由 ArrogantL 整理並在 CC BY-NC-SA 3.0 協議下發布。
請各位遵循 Markdown: License 及其它參考文獻的共享協議來使用、修改和發佈。