3天然語言學習
3.1動物的語言設計
3.2天然語言對象
3.2.1英文語法考察blog
3.2.2中文語法考察遞歸
3.2.3喬姆斯基的語言觀遊戲
3.4符號的組合事件
組合字符串
若是隻用一個詞彙來描寫天然語言最根本的機制,會是「組合」一詞。喬姆斯基的產生式,右邊字符串長度大於左邊,就是組合的一種表示。組合是很容易觀察到的,雖然對它的準確解讀並不容易。語言學家常常用層次分析法或直接成分分析法對語言單位進行層次、結構、成分的分析,效果是線性的字符串語句可顯示爲樹形的展開,葉子結點爲一個個詞彙。直接成分分析法用其創始人美國語言學家布龍菲爾德Leonard Bloomfield,1887.4-1949.4)所舉的例子,Poor John ran away這一句子最終分析爲(((Poor)( John))((ran)(away)))四個單詞。拆分的過程以下:基礎
直接成分分析又稱爲二分法,直接成分也就是偏正結構中的中心詞,本例中是Poor John中John,ran away中的ran。通常地說,天然語言語句的表達都是這樣的輸出:ABCDE,並可拆分爲A、B、C、D、E多個部分,每一個大寫字母表示一個詞彙,拆分的順序與層次依據方法不一樣而不一樣。表現於口語上,人類一次表達發出的聲音能夠拆分紅多個不一樣的音段;表現於書面語,每一次的表述最終可拆分爲多個不一樣的字或詞。ABCDE的各部分A、B、C、D、E可出現於其它的語句中,其它語句能夠是:AXYZ、XBCWS、ABCFE……。語法
人類使用符號要面對的第一個問題是:要指稱或描寫的內容是無限的,並且咱們也能知道存在無數咱們如今還不知道的事物、現象。咱們不可能像動物那樣爲每個須要表達的內容獨立構造一串聲音或其它媒介形式,表達不一樣內容的聲音或其它媒介形式相互間沒有什麼關係,各自獨立地存在,每次的使用都是一次單一的操做。換句話說,只有命名的方式是不夠的,這裏命名包括用詞彙指稱一次簡單的對象,或者用詞彙指稱一個複合的現象,這並無自然的限制。
最初,可能只是把容易聯想其組合意義的二個聲音放在一塊兒說出來,當這個過程開始後,人類天然語言就開始獲得塑造。從語用來講,組合與命名會造成分工。能夠給每一類事物命名,對於分類下一具體事物,除非自己很重要,不然不會單獨給予名稱。能夠經過組合來指稱分類下一個具體的事物,好比「距離太陽最近的星球」來指稱水星。一個家庭從祖先x、y開始,理論上其綿延不絕的後代均可以由「兒子」、「女兒」二個詞,再加上序數詞以遞歸的方式來指稱:第一(兒子(x、y)),、第二(女兒(x、y))、第二(女兒(第一(兒子(x、y))))、第一(兒子(第二(女兒(x、y))))……。利用組合的方式也能夠指稱一個類別,如「吃草動物」。咱們對動做、關係、屬性……都只是抽象地命名,在組合中直接應用這些泛指的符號,經過上下文語境獲得具體語義。這些策略大大縮減了須要命名的符號。麻煩在於咱們也常用多義詞的策略。
最重要的分工是:給現實中可區分出的事物、屬性、關係等要素的類別賦予名稱,就能夠經過組合來描寫事物參與的現象、事件,以及現象、事件的發展變化。對於現象、事件這樣的意義咱們不須要直接給予名稱,組合是更適合的描寫方式,這在更大程度上減小了獨立命名的須要。從語法上說,一門具體的天然語言不必定徹底按上面描述的方式使用,這只是一個趨向,不傾向於此趨向的天然語言需以其它方式達到一樣的效果,本質上很難想象其它不一樣的方式。組合就是天然語言的表現力所在。對組合的使用,符號組合與表達意義的互配。塑造了多數天然語言的格局,產生了語言的使用規則,今天所說的語法。
咱們按規則組合所造成的表述,特別適合於咱們經驗世界的描寫。同時咱們也能夠說出或寫下這樣的語句:「三足獸展開翅膀,飛向月亮」;「暗物質閃耀着黑色的光芒」,這不是咱們見過的真實景象,但語句是合乎語法,能夠被理解的。咱們能夠組合出與此時此地此物此事不相符的符號組合,表示咱們的猜想、想象,或者就是幻想。天然語言的表述與其說是由內容決定的描寫,不如說是主動的意義生成,只是這種生成用於對現實進行表述時必須能實現符號表述與語義的一致對應,至少要能接近這一目標。
語言符號組合的結果是符號的先後排列,解讀時會分解爲層次、結構、規則等。就呈現形式而言,語言具備線性特徵。線性排列產生語序,多數的語言將語序做爲重要的語法手段,好比漢語裏說「老虎吃獅子」與「獅子吃老虎」二個句子,它們構成成分都相同,意義徹底不同,這種不同就是由語序體現出來的。線性對口語是必然的。在文字的通常的應用中,咱們在紙的二維平面經過肯定一個順序,如從左至右,再從上至下的順序,創造一個線性序列來等效口語,咱們把這看做歷史沿襲,當前文字應用的一個特徵,但不認爲是紙面應用的必然。
層次
語句進行層次分析或直接成分分析時,分解出下級層次的成分,自己是不一樣類型的語言單位,這些語言單位在語言裏也呈層次的分佈,這是咱們前面對英語與中文的講解時說到的:
5句子(包括:小句、單句、複合句)
4複合詞/詞組
3字/詞(包括基礎字、詞、合成詞、派生詞)
2詞根詞素/偏旁部首
1視覺構件(字母、筆劃)
視覺構件層次以上,每一層次的語言單位又稱爲不一樣的語法實體。第三、4層能夠理解爲命名獲得的符號,命名所用的名稱能夠是經過已有符號組合獲得,這提供了一種可論證性。分層機制實現了表達形式潛在數量幾何級數的增加,能夠更容易應對錶現內容的無限性。天然語言到了語句一層,可組合出的形式理論上是無限多的,這讓咱們平常生活中的天然語言應用駕輕就熟。
借用分層的概念,咱們可虛擬一種經濟的語言模型。咱們先忽略第1層的內容,而後從新定義語法層級。咱們把字或詞做爲0階的單位。把0階的單位經過組合、複合出的單位做爲1階單位,把0階、1階的單位組合、複合出的單位做爲2階單位,以此類推,總體最好是有5階層級。階層系統應該這樣構造:階層數越低,其語法實體的數量越少,其語法單位統計上使用頻率越高。從低階層到高階層組合的規則最好是各個階層之間通用的(注:漢語基本作到了這一點),且數量越少越好。每一階的單位加上表述性均可成爲表述層級的語句,若是須要表述層級可附加儘可能少的規則。設計出這樣的系統,學習記憶的負載將最小化,只是這種設計的現實意義不大。天然語言是一個意義的發生系統,好比說詞彙的出現是由人類的認知決定的,不是語言上的設計,組合的規則同時也兼有意義模式的做用,不可能一味地刪減。另外語言是一種文化的載體,惰性是其特徵。語言也常常類比爲一種制度,制度特性是各個方面的此消彼長,減小命名詞彙的數量,反過來不必定能控制複合的階數,即在一個向度的強化就可能弱化另外一向度。
句子層次以上還能夠劃分紅以下的層次:
9叢書
8分冊(書)
7章節
6段落(也稱:句羣)
這些層次也稱爲語篇層級,它們再也不認爲是語法實體,由於在這個範圍內沒有對應的語法規則。連續的多個語句,它們在在語法層面是各自獨立的,合理要求是它們在語義層面是連續的,但這種連續性是由人把握的,並無通用的標準,除非應用了邏輯。
組合與分層的說法包含着一個意思:基礎詞、派生詞、合成詞、複合詞、甚至詞組,它們是離散存在的,每一語法實體可做爲一個單位參與不一樣的組合,就如積木遊戲裏的木塊同樣。離散說法這對漢語這樣的孤立語言,從心理到物理都是成立的,漢語裏的組合也都是物理的、機械的,僅僅把語言單位先後排列在一塊兒。對於英語這樣有形態變化的語言,組合有了「化學」的性質,咱們還要變換各成份的形態並保持相互的一致。這樣就涉及到詞的同一性的問題。離散性並非一開始就明顯的事實,說話時人的發音是連續的,文字分析中斷句分詞也一直是個難點。