http://blog.csdn.net/ice110956/article/details/17090061算法
整理至11月中旬在重慶參加的天然語言處理與機器學習會議,第一講爲天然語言處理。app
由基本理論到實際運用,整理了基本的框架。框架
爲句子中的每一個詞語標註詞性,可看作是句法分析的關鍵任務,也能夠看作是句法分析的最低層次.對後續句法分析,語義消歧等任務很是有用.dom
POS集合,也就是基本詞性規則:機器學習
經常使用的是PennTreebank set,包好45個tagside
基本方法:工具
基於規則:人工基於詞彙與其餘語言知識構造標註規則學習
基於學習:基於人工語料進行訓練.net
統計模型:HMM,Maximum EntropyMarkov(MEMM),conditional random field(CRF)orm
規則學習:transformation basedlearning(TBL)
序列POS:
POS問題能夠看作最一個序列進行POS的問題.
基於分類的序列標註:
把每一個詞看作上下文的一個特徵,如相鄰的詞,用分類算法來解決.
如:John saw thefish and decided to take it to the table.
Saw能夠當作john + saw +fish的一個特徵,用分類算法來POS.
缺點:
1.不容易集成來自左右兩個方向上的詞語標記信息.
2.難以表達與傳遞詞語標籤半段的不肯定性,難覺得序列中全部詞語統一肯定最可能的聯合標籤判斷.
具體的算法有前向分類與後向分類.
基於機率的序列標註:機率序列標註模型容許集成序列中多個相互依賴的個體分類的不肯定性,統一肯定最可能的全局標籤判斷.
典型模型:HMM,MEMM,CRF
其中,HMM可以使用監督學習與無監督學習,半監督學習等等.其中使用viterbi動態規劃算法.
中文語法分析效果
整體F值爲95%
主要錯誤爲新詞;命名實體識別效果偏低,效果跟文本類型有關.整體水品超過90%.
類型:句法分析與依存關係分析;徹底分析與淺層分析.
涉及知識:組塊分析(chunking),Chomsky語法層次,Context Free Grammars(CFG)上下文無關語法,句法樹(parsing)等.
句法結構分析(parsing):
1.給定一串終結符號和一個CFG,肯定該符號是否可以被CFG所生成,同時爲該符號串返回句法樹.
2.搜索以獲取句法樹的推導
Top-down parsing:從初始符開始
Bottom-up parsing:從符號串中的終結符開始
3. 動態規劃parsing方法
CKY(cocke-kasami-younger)算法;基於自底向上分析,須要對句法進行規範化
Enrley parser:自頂向下分析,不須要句法規範化,但更加複雜
Chart parser:融合自頂向下與自底向上搜索
統計句法分析
使用句法機率模型爲每顆句法樹計算機率值;容許使用有監督學習和無監督學習獲得句法分析模型.
Probabilistic context freegrammar(PCFG):CFG的機率形式;以及機率話的CKY等.
已訓練獲得的樹庫:
見wiki:Treebank
中文句法分析效果:
短語結構整體水平F值>=80%,依存關係爲90%
獲取語言單元的意義:不一樣層次,詞彙級,句子級,篇章級
句法驅動的句子級語義分析:句子的語義分析由其組成成分的語義組合而獲得.基於詞彙和語法信息獲取句子意義表達.
1.運用句法樹生成一階邏輯表達式.
2.語法角色標註:施事,受事,來源,目的,工具等.
語法分析效果:深層語義分析很困難,目前沒有成熟的技術和系統;語義角色標註的整體水平(F值)在70%
篇章是一組連貫且具備結構的句子,如獨白,對話.
主要任務:篇章分割(分段)句間關係識別,指代消解.
理想狀況下須要深層文本理解技術來應對以上任務,但目前爲止主要採用淺層分析方法.
將文檔分割成子話題的線性序列.如科技文章可分爲:摘要,簡介,方法,結果,結論等等.
應用:文檔摘要:每一個段落分別摘要;信息檢索與信息抽取:在合適的段落上進行
相關任務:對於語音識別文本的段落分割.
方法:基於凝聚性的方法(Cohesion-based approach)
將文旦分割成子話題,每一個子話題中的段落/句子之間相互凝聚子話題邊界處的凝聚性較差
TextTiling算法.
基於連貫關係的篇章層次結構,相似於句法樹的結構.樹節點表示句子之間的連貫關係:discourse segment(notlinear)
應用:文摘系統:能夠忽略或合併被elaboration關係鏈接的單元;問答系統:利用explanation關係進行回答;信息抽取系統:不須要對從沒有連貫關係的單元上抽取的信息融合.
指代消除(referenceresolution):肯定哪一個實體被哪一個語言表達所意指.
分類:
coreference resolution(共指消解):發現指向相同實體的指稱表達式,也就是尋找共指鏈,如:{Mr.Obama,The president,he}
pronominal Anaphora Resolution(人稱代詞消解):以下一句的he指向Mr.Obama.
我想扁你->Ithink flat you.
研究意義:怎樣表達詞語的意義?詞語之間是怎樣關聯的?同義詞,反義詞,上位詞,下位詞,類似不類似等等.
名詞:詞義(word senses):
一個詞語的特定意義
一個詞語能夠有多個詞義
一個詞義能被一個註釋所描述.如apple:水果,紅色,黃色或者綠色,甜味.
詞彙類似度(wordsimilarity)
同義詞/反義詞等二值關係
更寬鬆的準則:詞彙類似度/詞義距離(Word similarity or word semantic distance)
兩種計算方法:
基於語義詞典的方法(Thesaurus-based):構造一個wordnet,判斷在wordnet中的關係
基於語料統計的方法(Distributional/Statisticalalgorithm):比較詞語在語料庫中的上下文.
基於Wordnet的詞義類似度:
著名的英文詞義關係計算資源,同義詞庫。
基本單元爲一個synet,也就是一個同義詞集合。
每一個詞條包含多個synet,用來註解。
不一樣的synets之間經過不一樣的詞義關係相連。
語義詞典方法的缺點:
許多語言沒有好用的語義詞典。許多新詞不被包含。限於名詞,對於形容詞和動詞並不完善。
基於語料統計的詞彙類似度:
好比根據許多句話以及上下文,咱們能夠推斷某個未知的英文單詞的含義。語料統計也是類似的過程。經過互聯網的語料,來統計某個詞的語義。或者有機遇wiki百科的語義分析等。
計算完語義後,就能夠經過語義來消歧。
對海量的內容進行提煉與總結,以簡潔,直觀的摘要來歸納用戶所關注的主要內容。好比微博圖譜,新聞摘要等等,是天然語言處理與篇章分析的一個主要運用。