1.文本朗讀(Text to speech)/語音合成(Speech synthesis)php
2.語音識別(Speech recognition)算法
3.中文自動分詞(Chinese word segmentation)性能
4.詞性標註(Part-of-speech tagging)spa
5.句法分析(Parsing)翻譯
6.天然語言生成(Natural language generation)設計
7.文本分類(Text categorization)orm
8.信息檢索(Information retrieval)ip
9.信息抽取(Information extraction)ci
10.文字校對(Text-proofing)文檔
11.問答系統(Question answering)
12.機器翻譯(Machine translation)
13.自動摘要(Automatic summarization)
14.文字蘊涵(Textual entailment)
1. 單詞的邊界界定
在口語中,詞與詞之間一般是連貫的,而界定字詞邊界一般使用的辦法是取用能讓給定的上下文最爲通順且在文法上無誤的一種最佳組合。在書寫上,漢語也沒有詞與詞之間的邊界。
2.詞義的消歧
許多字詞不單隻有一個意思,於是咱們必須選出使句意最爲通順的解釋。
3.句法的模糊性
天然語言的文法一般是模棱兩可的,針對一個句子一般可能會剖析(Parse)出多棵剖析樹(Parse Tree),而咱們必需要仰賴語意及先後文的資訊才能在其中選擇一棵最爲適合的剖析樹。
例如語音處理時遇到外國口音或地方口音,或者在文本的處理中處理拼寫,語法或者光學字符識別(OCR)的錯誤。
5.語言行爲與計劃
句子經常並不僅是字面上的意思;例如,「你能把鹽遞過來嗎」,一個好的回答應當是把鹽遞過去;在大多數上下文環境中,「能」將是糟糕的回答,雖然說 回答「不」或者「太遠了我拿不到」也是能夠接受的。再者,若是一門課程去年沒開設,對於提問「這門課程去年有多少學生沒經過?」回答「去年沒開這門課」要 比回答「沒人沒經過」好。