NLP (Natural Language Processing) 是人工智能(AI)的一個子領域。
天然語言是人類智慧的結晶,天然語言處理是人工智能中最爲困難的問題之一,而對天然語言處理的研究也是充滿魅力和挑戰的。
任務和限制編輯
理論上,NLP是一種很吸引人的人機交互方式。早期的語言處理系統如SHRDLU,當它們處於一個有限的「積木世界」,運用有限的詞彙表會話時,工做得至關好。這使得研究員們對此係統至關樂觀,然而,當把這個系統拓展到充滿了現實世界的含糊與不肯定性的環境中時,他們很快喪失了信心。
因爲理解(understanding)天然語言,須要關於外在世界的普遍知識以及運用操做這些知識的能力,天然語言認知,同時也被視爲一我的工智能完備(AI-complete)的問題。同時,在天然語言處理中,"理解"的定義也變成一個主要的問題。有關理解定義問題的研究已經引起關注。
實際問題編輯
一些NLP面臨的問題實例:
句子「咱們把香蕉給猴子,由於它們餓了」和「咱們把香蕉給猴子,由於它們熟透了」有一樣的結構。可是代詞「它們」在第一句中指的是「猴子」,在第二句中指的是「香蕉」。若是不瞭解猴子和香蕉的屬性,沒法區分。
主要範疇編輯
文本朗讀(Text to speech)/語音合成(Speech synthesis)
語音識別(Speech recognition)
中文自動分詞(Chinese word segmentation)
詞性標註(Part-of-speech tagging)
句法分析(Parsing)
天然語言生成(Natural language generation)
文本分類(Text categorization)
信息檢索(Information retrieval)
信息抽取(Information extraction)
文字校對(Text-proofing)
問答系統(Question answering)
機器翻譯(Machine translation)
自動摘要(Automatic summarization)
文字蘊涵(Textual entailment)
研究難點編輯
單詞的邊界界定
在口語中,詞與詞之間一般是連貫的,而界定字詞邊界一般使用的辦法是取用能讓給定的上下文最爲通順且在文法上無誤的一種最佳組合。在書寫上,漢語也沒有詞與詞之間的邊界。
詞義的消歧
許多字詞不單隻有一個意思,於是咱們必須選出使句意最爲通順的解釋。
句法的模糊性
天然語言的文法一般是模棱兩可的,針對一個句子一般可能會剖析(Parse)出多棵剖析樹(Parse Tree),而咱們必需要仰賴語意及先後文的資訊才能在其中選擇一棵最爲適合的剖析樹。
有瑕疵的或不規範的輸入
例如語音處理時遇到外國口音或地方口音,或者在文本的處理中處理拼寫,語法或者光學字符識別(OCR)的錯誤。
語言行爲與計劃
句子經常並不僅是字面上的意思;例如,「你能把鹽遞過來嗎」,一個好的回答應當是把鹽遞過去;在大多數上下文環境中,「能」將是糟糕的回答,雖然說回答「不」或者「太遠了我拿不到」也是能夠接受的。再者,若是一門課程去年沒開設,對於提問「這門課程去年有多少學生沒經過?」回答「去年沒開這門課」要比回答「沒人沒經過」好。
天然語言處理編輯
統計天然語言處理運用了推測學、機率、統計的方法來解決上述,尤爲是針對容易高度模糊的長串句子,當套用實際文法進行分析產生出成千上萬筆可能性時所引起之難題。處理這些高度模糊句子所採用消歧的方法一般運用到語料庫以及馬可夫模型(Markov models)。統計天然語言處理的技術主要由一樣自人工智能下與學習行爲相關的子領域:機器學習及資料採掘所演進而成。機器學習