Fine-Grained Entity Recognition 論文的一點筆記

時間 2019-12-15

標籤 fine grained entity recognition 論文一點 1點筆記简体版

原文原文鏈接

主要的task:從天然語言句子中發現所提到的實體的類型信息.算法

阻礙細粒度實體識別器開發的三個挑戰和解決方法：學習

1.標記集的選擇：經過管理一組112個基於Freebase類型的獨特標記來解決這個問題網站

2.爲標籤建立一個訓練集：編碼

　　Labeled text from Wikipedia:利用Wikipedia文本中的錨連接，用適當的標記自動標記實體段。設計

　　CRF for segmentation: 使用這個啓發式標記的訓練數據來訓練一個用於分割的條件隨機場（CRF）模型用於分割（識別提到的實體的文本的邊界）。ip

3.爲分段的說起內容分配標籤：使用一個自適應感知器算法來解決這個多類多標籤問題。開發

FIGER系統設計：io

標記集管理：社區

實體標記的第一步是定義一組類型。雖然在建立一個全面的標籤集方面已經作了一些努力(Sekine 2008)，可是研究社區尚未達成共識。另外一方面，整理知識庫(如Freebase)提供了數千種類型，用於對網站中的每一個條目/實體進行註釋。與(Sekine 2008)中設置的類型相比，Freebase類型的優勢是:1)世界上實體的覆蓋面更廣，2)容許包含多個重疊類型的實體。例如，克林特·伊斯特伍德能夠同時被詮釋爲演員和導演。監控

啓發式標記數據的生成和學習算法：

爲了有效地學習標記器，咱們須要大量的標記數據。對於這個新定義的標記集，不存在這樣一組標記數據。以前的研究人員已經在一個語料庫中手工標記了每一個提到的內容，並考慮了實體類型，可是這個過程很是昂貴，只有一小部分訓練語料庫是實用的。相反，咱們使用遠程監控，這是全自動的，所以是可伸縮的(Lengauer et al. 1999)。具體地說，咱們利用以相似於諾斯曼等人(2008)的方式從維基百科文本錨連接編碼的信息。爲每一個鏈接段m一個句子中,咱們發現相應的維基百科條目em經過錨的連接,其原始的類型從毒品和映射到tm T使用標記集。咱們把non-sentential啓發式的句子,如閾值逗號和分號的數量一個句子中去。咱們還從Wikipedia中刪除了功能性頁面，例如列表和類別頁面。所以，這個過程使用標記集T從Wikipedia自動註釋句子。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。