二十一世紀以來,因爲國際互聯網的普及,天然語言的計算機處理成爲了從互聯網上獲取知識的重要手段,生活在信息網絡時代的現代人,幾乎都要與互聯網打交道,都要或多或少地使用天然語言處理的研究成果來幫助他們獲取或挖掘在廣闊無邊的互聯網上的各類知識和信息,所以,世界各國都很是重視天然語言處理的研究,投入了大量的人力、物力和財力。
html
我認爲,當前國外天然語言處理研究有四個顯著的特色:網絡
在過去的四十多年中,從事天然語言處理系統開發的絕大多數學者,基本上都採用基於規則的理性主義方法,這種方法的哲學基礎是邏輯實證主義,他們認爲,智能的基本單位是符號,認知過程就是在符號的表徵下進行符號運算,所以,思惟就是符號運算。機器學習
著名語言學家J. A. Fodor在《Representations》[1]一書(MIT Press, 1980)中說:「只要咱們認爲心理過程是計算過程(所以是由表徵式定義的形式操做),那麼,除了將心靈看道別的以外,還天然會把它看做一種計算機。也就是說,咱們會認爲,假設的計算過程包含哪些符號操做,心靈也就進行哪些符號操做。所以,咱們能夠大體上認爲,心理操做跟圖靈機的操做十分相似。」Fodor的這種說法表明了天然語言處理中的基於規則(符號操做)的理性主義觀點。工具
這樣的觀點受到了學者們的批評。J. R. Searle在他的論文《Minds, Brains and Programmes》(1980,載《Behavioral and Brain Sciences》, Vol.3)[2]中,提出了所謂「中文屋子」的質疑。他提出,假設有一個懂得英文可是不懂中文的人被關在一個屋子中,在他面前是一組用英文寫的指令,說明英文符號和中文符號之間的對應和操做關係。這我的要回答用中文書寫的幾個問題,爲此,他首先要根據指令規則來操做問題中出現的中文符號,理解問題的含義,而後再使用指令規則把他的答案用中文一個一個地寫出來。好比,對於中文書寫的問題Q1用中文寫出答案A1,對於中文書寫的問題Q2用中文寫出答案A2,如此等等。這顯然是很是困難的幾乎是不能實現的事情,並且,這我的即便可以這樣作,也不能證實他懂得中文,只能說明他善於根據規則作機械的操做而已。Searle的批評使基於規則的理性主義的觀點受到了廣泛的懷疑。學習
理性主義方法的另外一個弱點是在實踐方面的。天然語言處理的理性主義者把本身的目的侷限於某個十分狹窄的專業領域之中,他們採用的主流技術是基於規則的句法-語義分析,儘管這些應用系統在某些受限的「子語言」(sub-language)中也曾經得到必定程度的成功,可是,要想進一步擴大這些系統的覆蓋面,用它們來處理大規模的真實文本,仍然有很大的困難。由於從天然語言系統所須要裝備的語言知識來看,其數量之浩大和顆粒度之精細,都是以往的任何系統所遠遠不及的。並且,隨着系統擁有的知識在數量上和程度上發生的巨大變化,系統在如何獲取、表示和管理知識等基本問題上,不得不另闢蹊徑。這樣,就提出了大規模真實文本的天然語言處理問題。1990年8月在芬蘭赫爾辛基舉行的第13屆國際計算語言學會議(即COLING'90)爲會前講座肯定的主題是:「處理大規模真實文本的理論、方法和工具」,這說明,實現大規模真實文本的處理將是天然語言處理在從此一個至關長的時期內的戰略目標。爲了實現戰略目標的轉移,須要在理論、方法和工具等方面實行重大的革新。1992年6月在加拿大蒙特利爾舉行的第四屆機器翻譯的理論與方法國際會議(即TMI-92)上,宣佈會議的主題是「機器翻譯中的經驗主義和理性主義的方法」。所謂「理性主義」,就是指以生成語言學爲基礎的方法,所謂「經驗主義」,就是指以大規模語料庫的分析爲基礎的方法。從中能夠看出當前天然語言處理關注的焦點。當前語料庫的建設和語料庫語言學的崛起,正是天然語言處理戰略目標轉移的一個重要標誌。隨着人們對大規模真實文本處理的日益關注,愈來愈多的學者認識到,基於語料庫的分析方法(即經驗主義的方法)至少是對基於規則的分析方法(即理性主義的方法)的一個重要補充。由於從「大規模」和「真實」這兩個因素來考察,語料庫纔是最理想的語言知識資源。測試
這種大規模真實的語料庫還爲語言研究的現代化提供了強有力手段。我在20多年前曾經測試過漢字的熵(即漢字中所包含的信息量),這是中文信息處理的一項基礎性研究工做。爲了計算漢字的熵,首先須要統計漢字在文本中的出現頻度,因爲70年代咱們尚未機器可讀的漢語語料庫,哪怕小規模的漢語語料庫也沒有,我只得根據書面文本進行手工查頻,用了將近10年的時間,對數百萬字的現代漢語文本(佔70%)和古代漢語文本(佔30%)進行手工查頻,從小到大地逐步擴大統計的規模,創建了6個不一樣容量的漢字頻度表,最後根據這些不一樣的漢字頻度表,逐步地擴大漢字的容量,終於計算出了漢字的熵。這是一件極爲艱辛而煩瑣的工做。現在咱們有了機器可讀的漢語語料庫,徹底用不着進行手工查頻,頻度的統計能夠在計算機上進行,只要很是簡單的程序就能夠垂手可得地從語料庫中統計出漢字的頻度並進一步計算出漢字的熵。語言研究工做的效率成百倍、成千倍地提升了!儘管學問是從苦根上長出來的甜果,可是,現代化的手段不只能夠幫助咱們少吃不少的苦,並且也還能把學問作得更好。手工查頻猶如趕着老牛破車在崎嶇的山路上跋涉,使用語料庫猶如乘宇宙飛船在廣闊的太空中翱翔。這是我從前根本不敢想象的。大規模機器可讀語料庫的出現和使用,把語言學家從艱苦繁重的手工勞動中解放出來,使語言學家能夠集中精力來研究那些更加劇要的問題,這對於促進語言學研究的現代化具備不可估量的做用。url
傳統語言學基本上是經過語言學家概括總結語言現象的手工方法來獲取語言知識的,因爲人的記憶能力有限,任何語言學家,哪怕是語言學界的權威泰斗,都不可能記憶和處理浩如煙海的所有的語言數據,所以,使用傳統的手工方法來獲取語言知識,猶如以管窺豹,以蠡測海,這種獲取語言知識的方法不只效率極低,並且帶有很大的主觀性。傳統語言學中嘖嘖地稱道的所謂「例不過十不立,反例不過十不破」的樸學精神,貌似嚴格,實際上,在浩如煙海的語言數據中,以十個正例或十個反例就垂手可得地來決定語言規則的取捨,難道就可以萬無一失地保證這些規則是可靠的嗎?這是大大地值得懷疑的。當前的天然語言處理研究提倡創建語料庫,使用機器學習的方法,讓計算機自動地從浩如煙海的語料庫中獲取準確的語言知識。機器詞典和大規模語料庫的建設,成爲了當前天然語言處理的熱點。這是語言學獲取語言知識方式的巨大變化,做爲二十一世紀的語言學工做者,都應該注意到這樣的變化,逐漸改變獲取語言知識的手段。spa
2000年,在美國約翰.霍普金斯大學(Johns Hopkins University)的暑假機器翻譯討論班(Workshop)上,來自南加州大學、羅切斯特大學、約翰·霍普金斯大學、施樂公司、賓西法尼亞州立大學、斯丹福大學等學校的研究人員,對於基於統計的機器翻譯進行了討論,以德國亞琛大學(Aachen university)年輕的博士研究生奧赫(Franz Josef Och)爲主的13位科學家寫了一個總結報告(Final Report),報告的題目是《統計機器翻譯的句法》(「Syntax for Statistical Machine Translation」),這個報告提出了把基於規則的方法和基於統計方法結合起來的有效途徑。奧赫在國際計算語言學2002年的會議(ACL2002)上發表論文,題目是:《統計機器翻譯的分辨訓練與最大熵模型》(「Discriminative Training and Maximum Entropy Models for Statistical Machine Translation」),進一步提出統計機器翻譯的系統性方法,獲ACL2002大會最佳論文獎。翻譯
2002年1月,在美國成立了Language Weaver公司,專門研製統計機器翻譯軟件(Statistical Machine Translation Software,簡稱SMTS),奧赫加盟Language Weaver公司,做爲這個公司的顧問。 Language Weaver公司是世界上第一個把統計機器翻譯軟件商品化的公司。他們使用機器自動學習的技術,從翻譯存儲資料(translation memories)、翻譯文檔(translated archives)、詞典(dictionaries & glossaries)、因特網(Internet)以及翻譯人員(human translators)那裏獲取大量的語言數據,在這個過程當中,他們對這些語言數據進行各類預處理(pre-processing),包括文本格式過濾(format filtering)、光學自動閱讀和掃描(Scan + OCR)、文字轉寫(transcription)、文本對齊(document alignment)、文本片斷對齊(segment alignment)等。接着,把通過預處理的語言數據,在句子一級進行源語言和目標語言的對齊,造成雙語並行語料庫(parallel corpus)。而後使用該公司本身開發的「LW學習軟件」(Language Weaver Learner,簡稱LW Learner),對雙語並行語料庫進行處理,從語料庫中抽取機率翻譯詞典、機率翻譯模板以及機率翻譯規則等語言信息,這些抽取出來的語言信息,統稱爲翻譯參數(translation parameters),這樣的翻譯參數實際上就是機率化的語言知識,通過上述的處理,語言數據就變成了機率化的語言知識。翻譯參數是該公司翻譯軟件的重要組成部分。爲了處理這些翻譯參數,該公司還開發了一個統計翻譯器,叫作解碼器(Decoder),這個解碼器是該公司翻譯軟件的另外一個重要組成部分,解碼器和翻譯參數成爲了Language Weaver公司翻譯軟件的核心(core components)。解碼器使用上述經過統計學習得到的翻譯參數對新的文本進行機器翻譯,把新的源語言文本(new source language documents)自動地翻譯成新的目標語言譯文(new target language translation),提供給用戶使用。code
Language Weaver公司的翻譯系統的工做流程以下圖所示:
圖1 Language Weaver 統計機器翻譯軟件工做流程
目前,該公司開發的漢英機器翻譯系統和英語—西班牙語雙向機器翻譯系統即將問世。他們還要使用一樣的方法,開發英語—法語的雙向機器翻譯系統、印地語—英語以及索馬里語—英語的單向機器翻譯系統。
2003年7月,在美國馬里蘭州巴爾的摩(Baltimore, Maryland)由美國商業部國家標準與技術研究所NIST/TIDES (National Institute of Standards and Technology) 主持的機器翻譯評比中,奧赫得到了最好的成績,他使用統計方法從雙語語料庫中自動地獲取語言知識,創建統計機器翻譯的規則,在很短的時間以內就構造了阿拉伯語和漢語到英語的若干個機器翻譯系統。偉大的希臘科學家阿基米德(Archimedes)說過:「只要給我一個支點,我就能夠移動地球。」(「Give me a place to stand on, and I will move the world.」)而如今奧赫也模仿着阿基米德說:「只要給我充分的並行語言數據,那麼,對於任何的兩種語言,我就能夠在幾小時以內給你構造出一個機器翻譯系統。」(「Give me enough parallel data, and you can have translation system for any two languages in a matter of hours.」)[3]。這反映了新一代的天然語言處理研究者朝氣蓬勃的探索精神和繼往開來的豪情壯志。看來,奧赫彷佛已經找到了機器翻譯的有效方法,至少按照他的路子走下去,使用機器自動學習的方法,也許有可能開創出機器翻譯研究的一片新天地,使咱們在探索真理的曲折道路上看到了耀眼的曙光。過去咱們使用人工編制語言規則的方法來研製一個機器翻譯系統,每每須要幾年的時間,而如今採用奧赫的機器學習方法,構造機器翻譯系統只要幾個小時就能夠了,研製機器翻譯系統的速度已經大大地提升了,這是令咱們感到振奮的。
天然語言處理中愈來愈多地使用統計數學方法來分析語言數據,使用人工觀察和內省的方法,顯然不可能從浩如煙海的語料庫中獲取精確可靠的語言知識,必須使用統計數學的方法。
語言模型是描述天然語言內在規律的數學模型,構造語言模型是天然語言處理的核心。語言模型能夠分爲傳統的規則型語言模型和基於統計的語言模型。規則型語言模型是人工編制的語言規則,這些語言規則來自語言學家掌握的語言學知識,具備必定的主觀性和片面性,難以處理大規模的真實文本。基於統計的語言模型一般是機率模型,計算機藉助於語言統計模型的機率參數,能夠估計出天然語言中語言成分出現的可能性,而不是單純地判斷這樣的語言成分是否符合語言學規則。
目前,天然語言處理中的語言統計模型已經至關成熟,例如,隱馬爾可夫模型(Hidden Markov Model,簡稱HMM)、機率上下文無關語法(Probabilistic Context-Free Grammar,簡稱 PCFG)、基於決策樹的語言模型(Decision-Tree Based Model)、最大熵語言模型(Maximum Entropy Model)等[4]。研究這樣的語言統計模型須要具有統計數學的知識,所以,咱們應當努力進行知識更新,學習統計數學。若是咱們認真地學會了統計數學,熟練地掌握了統計數學,就會使咱們在獲取語言知識的過程當中如虎添翼。
句法歧義問題的解決不只與機率和結構有關,還每每與詞彙的特性有關。這裏討論兩個問題。
⑴ PP附着問題:在英語句子中,介詞短語PP能夠作中心動詞短語VP的狀語,也能夠作它前面名詞短語NP的修飾語,到底是附着於VP,仍是附着於NP,這就是所謂「PP-附着」(PP-attachment)問題。PP-附着與詞彙有着密切的關係。
例如,在句子 「Washington sent more than 10,000 soldiers into Afghanistan」中, 介詞短語(PP) 「into Afghanistan」或者附着於名詞短語(NP) 「more than 10,000 soldiers」,或者附着於動詞短語(VP)「sent」(單獨的動詞也能夠當作一個動詞短語)。這裏存在PP-附着問題。
在機率上下文無關語法中,這種PP-附着的斷定要在下面的規則之間進行選擇:
NP -> NP PP (PP附着於NP)
和 VP -> VP PP (PP附着於VP)
這兩個規則的機率依賴於訓練語料庫。在訓練語料庫中,NP附着和VP附着的統計結果以下:
語料庫 PP附着於NP PP附着於VP
AP Newswire (13 00萬詞) 67% 33%
Wall Street Journal & IBM manuals 52% 48%
能夠看出,在兩個訓練語料庫中,「PP附着於NP」都處於優先地位。根據這樣的統計結果,咱們應該選擇PP附着於NP,也就是選擇PP 「into Afghanistan」附着於NP 「more than 10,000 soldiers」這個結果。可是,在咱們上面的句子中,介詞短語「into Afghanistan」的正確附着卻應該是附着於動詞短語VP(「sent」),這是由於這個VP「sent」每每要求一個表示方向的介詞短語PP,而介詞短語「into Afghanistan」正好知足了這個要求。機率上下文無關語法顯然不能處理這樣的詞彙依存問題。
⑵ 並列結構的歧義:
句子「dogs in houses and cats」是有結構歧義的:
圖2 並列結構歧義
儘管在直覺上咱們認爲圖2中左側樹是正確的,可是,左右兩側的樹所使用的規則倒是徹底同樣的。這些規則以下:
NP -> NP Conj NP
NP -> NP PP
NP -> Noun
PP -> Prep NP
Noun -> dogs
Noun -> house
Noun -> cats
Prep -> in
Conj -> and
根據機率上下文無關語法的無關性假設,因爲規則徹底相同,使用這些規則的機率相乘而計算出來的兩個樹形圖的機率也應該是同樣的。在這種狀況下,機率上下文無關語法將指派這兩個樹形圖以相同的機率,也就是說,機率上下文無關語法沒法斷定這個句子的歧義。
因而可知,儘管咱們使用數學,使用機率的方法,機率上下文無關語法在遇到詞彙依存問題的時候就顯得捉襟見肘、無能爲力了,咱們還須要探索其餘的途徑來進一步提高几率上下文無關語法的功能,其中的一個有效的途徑,就是在機率上下文無關語法中引入詞彙信息,採用詞彙中心語機率表示法,把機率上下文無關語法提高爲機率詞彙化上下文無關語法。
在理論語言學中,N. Chomsky最近提出了「最簡方案」,全部重要的語法原則直接運用於表層,把具體的規則減小到最低限度,不一樣語言之間的差別由詞彙來處理,也很是重視詞彙的做用。在語言學中出現了「詞彙主義」(lexicalism)的傾向。在天然語言處理中,詞彙知識庫的建形成爲了廣泛關注的問題。美國的WordNet,FrameNet以及我國各類語法知識庫和語義知識庫的建設,都反映了這種強烈的「詞彙主義」的傾向。
在這樣的新形勢下,天然語言處理這個學科的交叉性和邊緣性顯得更加突出了,咱們天然語言處理的研究者若是隻是侷限於本身原有的某一個專業的狹窄領域而不從其餘相關的學科吸收養分來豐富本身的知識,在天然語言處理的研究中必將束手無策、到處碰壁。面對這樣的形勢咱們應該怎麼作?是抱殘守缺,繼續把本身蜷縮在某一個專業的狹窄領域以內孤芳自賞,仍是與時俱進,迎頭遇上,努力學習新的知識,以適應學科交叉性和邊緣性的要求?這是我國天然語言處理工做者必須考慮的大問題。
我國天然語言處理雖然已經取得很多成績,可是,與國際水平相比,差距還很大。天然語言處理是國際性的學科,咱們不能閉門造車,而應該參與到國際天然語言處理的研究中去,用國際的水平和國際的學術規範來要求咱們的研究。近年來,我國的天然語言處理工做者也到國外參加過一些第一流的天然語言處理國際會議,如COLING,ACL,LREC等,可是,在這些國際會議上,我國學者幾乎歷來也沒有被邀請作表明當前最高研究水平而且引導計算語言學發展潮流的「主題報告」,咱們只能作表明通常水平的發言,或者在分組會議上講一講咱們的成績和體會。這種狀況說明,我國的天然語言處理研究,不論在理論上仍是在應用系統的開發上,基本上尚未什麼重大的創新,儘管咱們的自我感受良好,但實在尚未什麼特別值得稱道的突破,咱們的研究,基本上仍是跟蹤性的研究,不多有創造性的研究,固然更沒有具備原創思想的研究了。所以,咱們不能夜郎自大,不能坐井觀天,咱們只有努力學習國外的先進成果,遇上並超過國際的先進水平,使我國的天然語言處理在國際的先進行列中佔有一席之地,以無愧於我國這個國際大國的地位。