[轉]對當前天然語言處理方法論中的一個疑惑

時間 2019-11-17

標籤當前天然語言處理方法論一個疑惑简体版

原文原文鏈接

周錫令
xlzhou@btamail.net.cn
2001-11-8編程

在大多數狀況下，我習慣於研究遠離咱們主觀世界的客體。典型的例子是「天體」。在研究的過程當中，使用的方法是「創建模型」。研究的進展過程主要表現爲「模型的逐步求精」。編程語言

好比說，最開始只對兩個天體組成的系統模型進行研究，研究的結果與實際的數據基本符合，可是有微小的差別。因而，咱們進一步考慮距離較遠的第三個星體所產生的攝動做用，如此這般，使得咱們創建的模型愈來愈接近實際狀況。.net

對於力學世界，也有相似的現象，最開始創建牛頓力學，它和常規的世界符合得很好；可是當物體的運動速度逐漸接近光速時，又不少現象沒法解釋，因而進入了相對論修正。對象

在天然語言處理工做中，咱們好像也是採用相似的方法。咱們創建了一個又一個語法模型，但願將盡量多的語發現象籠括在內。可是和力學、電學等領域相比，所得的結果老是很不能使人滿意。對此，咱們老是把緣由歸結爲：天然語言太複雜！開發

咱們好像忽略了一個很重要的事實，那就是：像「天體」、「集成電路」……這類客體是「徹底自立於咱們主觀世界以外」的，咱們用來研究它們的大腦和這些被研究的對象是徹底分開的。研究它們時，用不着爲咱們本身的大腦的工做過程創建模型。而和「天體」、「集成電路」……這些客觀對象不一樣，天然語言自己彷佛夠不上一個完整的研究對象。做爲一個有價值的完整的研究對象，參與其運行機制的主要方面都應該包含在內。數學

舉例來講，若是有如下一個通信系統：語法

圖中的車載計算機經過無線電訊號向接收設備發送訊息。因爲各類緣由，信號常常受到干擾。所以發送時在信號中添加了偏差校訂碼，而接收設備則擁有根據偏差校訂碼校訂錯誤的設施。咱們在研究這個系統時，必定會總體地從信號的發送、傳輸、干擾、接收、校訂的全部環節來考慮。若是拋開接收這頭的校訂環節，單純研究信號的格式、統計規律，必定會得出千奇百怪、沒有太多價值的結果。程序

然而在研究天然語言時，咱們正是採起了這種奇怪的研究方式。天然語言是在人羣中爲了交流思想而產生和不斷髮展的。語言傳遞思想或信息的機制既蘊藏在語言內部的結構，也隱含在人的大腦解讀語言中所包含的符號系列的過程當中。但是咱們只研究語言自己！方法

所以對於天然語言傳遞信息的運行機制，不能單單研究語言自己。原則上，應該把「人的大腦的處理語言的過程」也包含在所研究的系統內，這樣纔能有結果。技術

固然，研究大腦解讀語言的過程很困難。可是，若是咱們所以就徹底放棄這一十分重要的方面，只是在語言的形式結構方面越鑽越細，咱們會不會永遠也得不出結果？

目前咱們固然還不可能提出大腦的所有模型。可是能夠爲大腦在理解天然語言時最重要的一個環節先拿出來研究，這就是解惑：補充語句中的缺失部分、糾正結構中的倒錯部分。展開來講，就是：

把天然語言中的語句或者句羣當作「含有多處含糊性」，「能夠有多種解讀方式」的符號系列，而後利用「知識」，藉助「語義合理性準則」從中選出最合乎情理的一種解讀方式，能夠當作是爲「大腦解讀語言的過程」所創建最初級的模型。

「語法」和「語義」的第一個結合點是否是就在這裏？

根據我現階段的理解，HNC團隊一直在這個方向上努力。固然，這個任務決不是垂手可得的。因爲這條道路涉及全體人類在所有歷史上積累下來的知識的表達和應用，沿着這條道路前進的工做着好像面臨着數學上使人生畏的無窮大問題。所以，要在這個方向上得到進展、並能獲得社會的認可，十分關鍵的一點就是：充分意識到任何工程都是有邊界的，任何技術手段所能解決的問題都是有限的；從而明確有限目標，並睿智地劃分工程的不一樣實現階段。

最後，咱們不妨來對比一下計算機編程語言。在發展這類語言時，歷來就是把計算機對語言的處理能力聯繫在一塊兒研究的。因爲現階段的計算機基本上沒有解惑能力，因此這類語言基本上不容許有含糊性，書寫出來的程序在語法上不能有絲毫差錯。樣樣事情都要交代的明確，沒有不符合語法或者模棱兩可的地方。我說「基本上」是由於當代的計算機也不是絕對沒有一點解惑能力。例如，不少人書寫HTML程序的時候，每每沒有嚴格聽從語法的規定。對於這種狀況，實際的HTML解釋程序每每可以「正確地加以理解」，也便可以在一頂程度上自動加以補充或改正。而不一樣公司開發的HTML解釋程序的解惑能力也有程度上的差別。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。