天然語言處理中的若干問題

1、語言模型

(一)N元語言模型

(二)語言模型性能評價

(三)數據平滑

(四)語言模型自適應方法

 

2、漢語自動分詞和詞性標註

(一)基本分詞方法

(二)未登錄詞處理方法

(三)基於多特徵的命名實體模型

(四)詞性標註

(五)詞性標註的一致性檢查和自動校對

3、句法分析

(一)統計句法分析以及句法分析的檢查

(二)層次化漢語長句結構分析

(三)淺層句法分析

(四)依據句法理論與依存句法分析

4、語義消歧

(一)有監督的語義消歧

(二)基於詞典的語義消歧

(三)無監督的語義消歧

(四)語義消歧系統評測

5、文本分類

(一)文本表示

(二)文本 特徵選擇方法

(三)特徵權重計算方法

(四)分類器設計

(五)文本分類器性能評估方法

6、自動文摘和信息抽取

(一)多文檔摘要

(二)單文檔摘要

(三)信息抽取

7、文檔聚類

(一)聚類算法

(二)聚類結果評估

8、天然語言處理的主要範疇

1.文本朗讀Text to speech/語音合成Speech synthesisphp

2.語音識別Speech recognition算法

3.中文自動分詞Chinese word segmentation性能

4.詞性標註Part-of-speech taggingspa

5.句法分析Parsing翻譯

6.天然語言生成Natural language generation設計

7.文本分類Text categorizationorm

8.信息檢索Information retrievalip

9.信息抽取Information extractionci

10.文字校對Text-proofing文檔

11.問答系統Question answering

12.機器翻譯Machine translation

13.自動摘要Automatic summarization

14.文字蘊涵Textual entailment

9、天然語言處理研究的難點

1. 單詞的邊界界定

在口語中,詞與詞之間一般是連貫的,而界定字詞邊界一般使用的辦法是取用能讓給定的上下文最爲通順且在文法上無誤的一種最佳組合。在書寫上,漢語也沒有詞與詞之間的邊界。

2.詞義的消歧

許多字詞不單隻有一個意思,於是咱們必須選出使句意最爲通順的解釋。

3.句法的模糊性

天然語言文法一般是模棱兩可的,針對一個句子一般可能會剖析Parse)出多棵剖析樹Parse Tree),而咱們必需要仰賴語意及先後文的資訊才能在其中選擇一棵最爲適合的剖析樹。

4.有瑕疵的或不規範的輸入

例如語音處理時遇到外國口音或地方口音,或者在文本的處理中處理拼寫,語法或者光學字符識別OCR)的錯誤。

5.語言行爲與計劃

句子經常並不僅是字面上的意思;例如,「你能把鹽遞過來嗎」,一個好的回答應當是把鹽遞過去;在大多數上下文環境中,「能」將是糟糕的回答,雖然說 回答「不」或者「太遠了我拿不到」也是能夠接受的。再者,若是一門課程去年沒開設,對於提問「這門課程去年有多少學生沒經過?」回答「去年沒開這門課」要 比回答「沒人沒經過」好。

相關文章
相關標籤/搜索