數學之美札記:天然語言處理——從規則到統計

    天然語言的處理,主要是實現人與計算機之間用天然語言進行有效通訊的方法理論,它經歷了從規則到統計的階段,所謂規則,是指根據定義的語法進行語言的處理,所謂統計,是指IBM爲解決語音識別問題提出的天然語言處理的方法,基於統計學。網絡


    1946年,現代計算機誕生,人類開始考慮經過計算機來處理天然語言,主要涉及兩個認知方面的問題:第一,計算機是否能處理天然語言;第二,若是能,它處理天然語言的方法是否和人類同樣。現代天然語言處理的高速發展,說明了這兩個問題的答案都是確定的。測試


    計算機科學之父阿蘭·圖靈最先提出了機器智能的設想,同時也提出了一種來驗證機器是否有智能的方法:讓人和機器進行交流,若是人沒法判斷本身交流的對象是人仍是機器時,就說明這個機器有智能了。這就是著名的圖靈測試(Turing Test)。人工智能


    1956年夏,28歲的約翰·麥卡錫,以及同年齡的馬文·明斯基,37歲的羅切斯特和40歲的香農,他們4人提議在麥卡錫工做的達特茅斯學院開了一個被他們稱爲「達特茅斯夏季人工智能研究會議」的頭腦風暴式的研討會。參加會議的還有6位年輕的科學家,包括40歲的赫伯特·西蒙和28歲的艾倫·紐維爾。spa


    在此次研討會上,這10我的討論當時計算機科學還沒有解決的問題,包括人工智能、自認語言處理和神經網絡等。人工智能這個提法即是在此次會議上提出的。這10我的中,後來出了4位圖靈獎得到者(麥卡錫、明斯基、西蒙和紐維爾)和信息論的發明人香農。設計


    達特茅斯會議的意義超過10個圖靈獎。遺憾的是,受歷史的侷限,這10個世界上最聰明的頭腦一個月的火花碰撞,並無產生什麼了不得的思想。這是由於在當時,全世界對天然語言處理的研究都陷入了一個誤區。orm


    基於規則的天然語言處理,指的是對天然語言的語法規則、詞性和構詞法等給這,使用計算機語言進行描述。而對於語義的研究和分析,語義比語法更難在計算機中表達出來。科學家們設計了一種簡單的天然語句的語法分析器,但願經過對天然語言語法全面的歸納,來逐步解決天然語言理解的問題。對象


    但很快就出現了問題,一些語句在不一樣的使用環境下有不一樣的語義。這就須要不斷的增長新的語法規則,並且即便寫出了涵蓋全部天然語言現象的語法規則集合,經過計算機來解析也很是的困難。在20世紀70年代,基於規則的天然語言處理遇到了瓶頸,這麼多年的努力也被認爲是失敗的。數據挖掘


    1970年之後統計語言學的出現使得天然語言處理重獲新生。有一段關鍵的歷史,IBM爲了解決語音識別的問題,提升當時的語音識別率,採用了基於統計的方法,這使得語音識別從實驗室走向了實際應用。在基於統計的語言處理出現以後,基於規則和基於統計的爭論一直持續了15年左右,隨着網頁搜索和數據挖掘技術的出現,在客觀上大大加速了天然語言處理研究從基於規則的方法到基於統計的方法的轉變,最終以基於規則的天然語言處理得到了勝利計算機科學

相關文章
相關標籤/搜索