主要的task:從天然語言句子中發現所提到的實體的類型信息.算法
阻礙細粒度實體識別器開發的三個挑戰和解決方法:學習
1.標記集的選擇:經過管理一組112個基於Freebase類型的獨特標記來解決這個問題網站
2.爲標籤建立一個訓練集:編碼
Labeled text from Wikipedia:利用Wikipedia文本中的錨連接,用適當的標記自動標記實體段。設計
CRF for segmentation: 使用這個啓發式標記的訓練數據來訓練一個用於分割的條件隨機場(CRF)模型用於分割(識別提到的實體的文本的邊界)。ip
3.爲分段的說起內容分配標籤:使用一個自適應感知器算法來 解決這個多類多標籤問題。開發
FIGER系統設計:io
標記集管理:社區
實體標記的第一步是定義一組類型。雖然在建立一個全面的標籤集方面已經作了一些努力(Sekine 2008),可是研究社區尚未達成共識。另外一方面,整理知識庫(如Freebase)提供了數千種類型,用於對網站中的每一個條目/實體進行註釋。與(Sekine 2008)中設置的類型相比,Freebase類型的優勢是:1)世界上實體的覆蓋面更廣,2)容許包含多個重疊類型的實體。例如,克林特·伊斯特伍德能夠同時被詮釋爲演員和導演。監控
啓發式標記數據的生成和學習算法:
爲了有效地學習標記器,咱們須要大量的標記數據。對於這個新定義的標記集,不存在這樣一組標記數據。以前的研究人員已經在一個語料庫中手工標記了每一個提到的內容,並考慮了實體類型,可是這個過程很是昂貴,只有一小部分訓練語料庫是實用的。相反,咱們使用遠程監控,這是全自動的,所以是可伸縮的(Lengauer et al. 1999)。具體地說,咱們利用以相似於諾斯曼等人(2008)的方式從維基百科文本錨連接編碼的信息。爲每一個鏈接段m一個句子中,咱們發現相應的維基百科條目em經過錨的連接,其原始的類型從毒品和映射到tm T使用標記集。咱們把non-sentential啓發式的句子,如閾值逗號和分號的數量一個句子中去。咱們還從Wikipedia中刪除了功能性頁面,例如列表和類別頁面。所以,這個過程使用標記集T從Wikipedia自動註釋句子。