3天然語言設計
3.1動物的語言對象
3.2天然語言blog
3.2.1英文語法考察遞歸
3.2.2中文語法考察字符串
3.2.3喬姆斯基的語言觀數學
前面只就英文與中文進行了簡單的描寫,這固然不能反映人類語言的全貌。世界上有多少種語言並無統一的說法,咱們估計爲4000種左右。對這些不一樣語種,只是進行類型劃分也是困難的,沒有一種分類能讓每一語種只歸屬於一個類型下。常見的一種劃分是將語言分爲分析型與綜合型:程序設計
1) 分析型。現今主要的語種都是分析型的,特色:構造不一樣類型的語法實體,依靠不一樣類語法實體的配置組合來表達複雜的語義,句子是表達的核心。基礎
2) 綜合型。主要指美洲印弟安語系的一些語種,特色:分析型語言裏用多個詞彙組成的句子,綜合型語言裏用一個詞來表達,這個詞以動詞成份爲中心,再附加衆多不一樣的詞綴,詞綴同時有的實指的意義與語法的意義。配置
按上面的標準,典型的分析型語言與典型的綜合型語言間還能夠再細分一些中間形態的語言,分析型的語言可進一步劃分爲:語法
像其它的社會科學同樣,今天的語言學也充滿了爭論,基於不一樣的觀點語言學界造成了不一樣的學派。,當前較有影響的一個學派是美國語言學家諾姆·喬姆斯基(Avram Noam Chomsky,1928-至今)開創轉換-生成語法學派。
喬姆斯基把語言分爲語言能力與語言行爲二方面(至關於索緒爾的語言與言語,參見第4章)。語言能力追溯至生理上人類智力裏已有的「廣泛語法」,廣泛語法加上不一樣的參數造成各類具體的人類語言,這些參數是由歷史選擇與積累的,並體現爲社會擁有的母語的特徵、使用規則、甚至直覺。語言行爲是語言的具體使用與結果。傳統語言學是從語言行爲研究語言的,在喬姆斯基看來這是經驗主義的作法。喬姆斯基的語言學是以語言能力爲研究對象,指望經過對語言能力的研究能夠解釋人類語言的習得機制。相對於經驗主義,喬姆斯基語言研究具備理性主義色彩,喬姆斯基構建形式的符號系統,經過符號系統規則的遞歸應用,能夠從基本的詞庫生成全部人類語言語句,包括已有的語句以及潛在無窮的語句。而後經過對這個符號系統的逐步求精能夠認知到人類的語言能力。
轉換生成的理論目前仍處於探索與變更之中,最複雜時包括語類、轉換、語義,語音四個子系統以及由深層到表層的多個層次,最新的努力是在追求最簡的方案。咱們考察的是喬姆斯基理論早期的短語語法。短語語法的生成規則可圖示以下:
圖中的每一符號表示一個語法類別,最下面豎線表示每一葉子的類別會由具體詞彙替換。
S :表示一個待定句子
NP :表示一個名詞短語
VP :表示一個動詞短語
Det :表示一個定冠詞
AP :表示一個形容詞
N :表示一個名詞
V :表示一個動詞
示意來講,一個句子經過下面的程序進行替換改寫生成。
第一步:初始S
第二步:S=NP+VP
第三步:S=DET+AP+N+VP(替代NP)
第四步:S= DET+AP+N+V+NP2(替代VP)
第五步:S= DET + AP + N + V + DET + N(替代NP2)
第六步:具體的單詞替換上面各位置值,獲得具體句子
其中S=NP+VP、NP=DET+AP+N、VP=V+NP、NP=DET+N中右邊表達式對左邊表達式的替換,以及實際單詞對(N、V、AP、DET)的替換就是喬姆斯基理論的語法規則。
短語語法也稱爲0-型文法,或無約束文法。一門語言裏若是構建一個規則集:P,P可以生成符合語法的全部語句,或者能判斷每一語句是否符合語法,這個P稱爲一個文法。「文法」一詞在這裏可與「語法」一詞通用。除0-型文法外,喬姆斯基及後人還研究了其它的三種文法,並將這些文法理論形式化。P中每一規則可表示A->B,即出現A時能夠用B替代,若是B字符串長度大於A,也稱爲產生式規則。可以出現於全部A->B規則的A與B位置的字符,稱爲字母表,天然語言裏也就是詞彙表,再加上如NP、VP這樣的語類的變項。字母表爲非終結符號與終結符號,終結符號是不能再分解的符號,好比說標點符號,終結符造成的集合表示爲∑。把終結符反過來理解就是非終結符,非終結符的集合表示爲N,N交∑爲空集。每一次生成過程,能做爲起始的非終結符號稱爲識別符號,好比語句類型的變項,識別符號造成的集合表示爲S,S是N的一個子集。這樣一個形式的語言可表示爲:
G=(N,∑,P,S)
字母表+P={語言裏全部的語句}
四種文法從0-型文法開始,每一文法在前一文法基礎上增長對P的約束獲得,增長的約束能夠是針對產生式P的左邊,也能夠是右邊:
語法形式:A->B
約束:
P中至少有一規則A位置出現非終結符號
在知足約束的條件下,A無條件改寫爲B
語法形式:XAY—>XBY
新增約束
|A|<=|B|:絕對值符號表示字符長度
且,B位置不能出現S集中字符
在知足約束的條件,A改寫爲B,當A位於左邊是X右邊是Y的序列中
語法形式:A—>Z
新增約束:
A位置有且僅有一個非終結字符
在知足約束的條件下,A無條件改寫爲B
語法形式:A→ Αb /A→ Bα /A->a。
新增約束:
出如今B位置上字符最多隻能是二字字符,兩個字符時必須一個爲非終結符,另外一個爲終結符(小寫字母),而當只有一個字符時,必須爲終結符。
在知足約束的條件下,A無條件改寫爲Αb、 或Bα、或a。
喬姆斯基的理論並不適合直接做爲天然語言的模型,這也不是評價他理論的方式。喬姆斯基的研究,至少早期的研究中,語義、語用這些方面並非研究的重點,他是從生成性方向進行抽象,數學化地研究語言,但願可以解釋天然語言的無限生成性,他的觀點簡單地來講就是:語言是遞歸的替換。在他的理論視角下,他的理論是成功且富於啓發的。
後面會講到,在不依賴於經驗語義的人工語言領域,如計算機程序設計語言,喬姆斯基的理論是真實的理論基礎。喬姆斯基理論的另外一價值是:將語言的機制與機器關聯了越來。四種文法正好對應了四種自動機:無約束文法對應圖靈機;上下文有關文法對應線性有界自動機;上下文無關文法對應下推自動機;正則文法對應有效狀態自動機。相關的概念後面有更多的討論。