轉載-從信息論角度論證爲何漢語是世界上最早進的語言--引用多項實驗數據

#【轉載】從信息論角度論證爲何漢語是世界上最早進的語言--引用多項實驗數據html

做者:漢語計算機應用研究小組(筆名:冷酷的哲學?)ide

##1、語言水平高低的評判準則post

口語,其實是一種通信協議。就是說,語言其實是把人的思想經過發音器官變成一串頻率不一樣、波形不一樣的聲波,而後被另外一個體的聽覺器官和相關的腦部組織從新轉變回思想。通信協議,就是一個規則,一個規定了應該如何把思想/信息轉變爲易於傳輸的信號的規則性能

計算機上,通信協議有兩個基本評判標準:【傳輸效率】和【抗噪能力】學習

傳輸效率:在單位時間裏,按照該通信協議可以傳輸多少信息。 抗噪能力:這種通信方式可以在多大的噪音下仍然保證絕大多數信息正確傳輸。測試

【傳輸效率】又分兩個方面,編碼效率和傳輸速度字體

編碼效率:這個通信協議可以把一個信息用多短的一串信號來表達 傳輸速度:一段信號,可以以多快的速度傳輸ui

評價一種語言的口語是否先進,就要分析上面這幾個問題。編碼

文字,則是一種數據存儲方式,存儲格式的要求與通信協議不一樣,存儲格式要求儲存空間小、讀寫速度快,相比於讀取速度,書寫速度是次要的。這是由於平均下來一次書寫對應不少次閱讀,而人在閱讀文字上花的時間通常遠遠大於書寫。尤爲是現代社會,手寫愈來愈少,計算機輸入、打印、印刷都大大加快了記錄文字的速度,而閱讀速度卻沒有多少提高,所以在現代社會,閱讀速度就在定義文字水平上佔據了更重要的地位。翻譯

須要注意的是,下面的討論中「音節」均採用西方語言學定義,粗略地講就是一組連續元音與其先後的輔音共同構成一個音節。好比To、Bliss、Strength是單音節。漢語Ba、Chuang也是單音節,雖然單音節詞的發音長度並不徹底相同,但至少是可比的

##2、語言的分類

世界上的語言大體分爲兩種,【孤立語】和【綜合語】

(綜合語 其下又劃分爲黏着語、屈折語等子類型)

【孤立語】 單純經過詞與詞之間的關係來表達不一樣的意思

【綜合語】 能夠經過改變詞的形態來表達不一樣的意思

咱們舉個簡單的例子:

中文(孤立語):我昨天告訴他了。

英文(綜合語):I told him yesterday.

英文你首先能夠看到told和him兩個變形,其中把tell變成told表示過去發生的動做。把he變成him表示客體

而中文用昨天來直接指明時間,若是不指明時間則須要用「已經」、「過」之類來表示過去,而並不改變詞的形態,中文還經過各自的位置來體現誰是主體誰是客體

實際上,英語已是綜合語中很是接近【孤立語】的了。英語的將來時態用的詞形和通常時態沒有區別,而不少其餘語言中不一樣的時態都是用不一樣的詞形來表達的。英文對於各個詞的位置有明確的規定,而不少其餘綜合語,諸如拉丁語中,詞的位置能夠不固定。換句話說就是能夠說出這樣的句子:Him yesterday told I 而後經過詞形裏的主格詞形和賓格詞形來判斷到底是誰告訴了誰

這是很是糟糕的,由於在讀取的時候,老是有前後的差異,咱們但願的讀取順序是:先讀取咱們的大腦須要先處理的部分,【孤立語】自然就有這種優點,不少【綜合語】在逐步的發展中也確立了相似的規則,好比拉丁語的後裔之一——法語

上古古漢語也曾是一種【綜合語】可是因爲漢字的限制,古漢語的詞形變化僅存在於口頭中,比方說文言文中的使動用法,如「文王以百里之壤而臣諸侯」中的臣(使臣服,在上古時期,是須要在漢字發音前加「s-」音來標識的,就是一個典型的綜合語的詞形變化

有人認爲如今的漢語仍然帶有必定的綜合語色彩,他們認爲加入諸如「了」、「的」這種助詞實際上就是詞的變形,這種見解就只能見仁見智了

從總體發展趨勢來看,世界各地的口語都是從【綜合語】向【孤立語】發展,雖然不能說【孤立語】就必定優於綜合語,可是這個趨勢說明【孤立語】的某種特性符合歷史的發展,這個優點就是數據的壓縮

##3、數據壓縮:【孤立語】的高超之處

當計算機發展到了新的時代,人們開始研究如何在計算機上存儲視頻文件,一開始的方案極其簡單,就是把一幀一幀圖像所有都存儲下來,可是這無疑是低效的,由於這裏面的冗餘信息太多

舉個簡單的例子,一個夜晚的場景,畫面上不少地方都是黑的,何須把每個點的色彩反覆記錄呢?因此接下來的一個思路就是,再也不存儲每一幀圖像的完整信息,而存儲下一幀圖像與上一幀圖像之間的差別之處,兩幅圖像中顏色同樣的部分所有跳過

【孤立語】偏偏就具備這樣的效果

舉個簡單的例子,一我的在用漢語談論昨天發生的事情時,只須要一開始說起「下面這些事情都發生在昨天」,後面就不再必說起時態了,而英文,則須要反覆使用時態來代表這事情發生在過去

在交流時你須要時刻考慮時間、主格/賓格、數量、主動/被動,這對交流是有影響的,固然,熟練使用這種語言以後會大大下降考慮這些的時間,可是即使熟練的綜合語使用者仍是會在這方面犯錯,在上下文的幫助下,這些變化均可以省掉

時間變形,能夠依靠在第一句中加入時間狀語完成描述,其後描述相同時間段的句子就不再用考慮描述時間了,這就是【孤立語】的數據壓縮能力。

隨着人類社會交流量的上升,一次交流的上下文就變得豐富起來,不少在單詞、單句的條件下頗有效率的信息交流方式,也就顯得愈來愈冗餘了,所以世界上的各個主要語言紛紛向【孤立語】靠攏。

關於各個語言的表意效率,也就是信息密度,2011年法國里昂大學作了一個實驗

http://ohll.ish-lyon.cnrs.fr/fulltext/pellegrino/Pellegrino_2011_Language.pdf

這個實驗裏,研究者找了59位不一樣語言使用者,其中包括英語、法語、德語、日語、漢語、意大利語和西班牙語。爲他們提供了20段文字,這些文字都翻譯成各自的語言,而後請這些人分別用正常語速朗讀,研究者全程錄音,而後研究者計算全部音節數量,計算朗讀中表現的義項(表意的基本單位)的數量,最後得出結論

研究的結果是

【漢語】信息密度爲0.94,位居 第一

【英語】信息密度爲0.91,位居第二

德語(0.79)

法語(0.74)

意大利語(0.72)

西班牙語(0.63)

日語(0.49)

此處信息密度是經過計算每一個音節所包含的義項數量來得到的,因爲義項的數量是從原始文本——英文版裏統計的,翻譯以後有可能會增長或減小義項,爲防止翻譯過程當中的扭曲形成數據標準不統一,各個語言的文本都被單獨翻譯爲越南語,而後與各自越南語文本中每一個音節所包含的義項數量相除,最終獲得比較公平的數據

這讓我不禁地想到,通過大規模注水的現代漢語信息密度仍是這麼高,那麼文言文究竟已經高到了何種地步?很遺憾沒有這方面的研究

不過,根據使用頻率進行加權平均,現代漢語平均每一個詞中的字數差很少是1.5左右,在文言文中,其中不少都是用單音節詞表達的,折中一下,我猜測文言文的信息密度達到現代漢語的1.25倍應該是不成問題的,這在古代更是個恐怖的數字

由於拉丁語可不是比現代歐洲各主要語言簡單,受到古代文字記錄空間的限制,漢語的顯然在文字記錄方面更加佔優,這也許就是我國古代文字記錄很是豐富的緣由所在

有人說,音節不能做爲衡量信息密度的單位,由於不一樣的音節,發音長度很不同。這個問題提的很是好,事實上,我下一節就要講到【英語】與【漢語】發音長度的問題,英語單音節平均發音長度比漢語長,所以在口語的信息密度方面,【漢語】的優點更大。

##4、傳輸的優點:聲調

口語信息的傳輸,是經過聲音完成的

聲音通常分爲四個部分:音質、音高、音長、音強

對於語言中的一個音節來講,音質指的是其中輔音與元音的組合,其餘三個都很好理解。現代語言不太規定【音強】,由於這實在沒法在各我的之間獲得統一,並且受到說話人的距離、情緒、身體狀態等影響,此處需注意,英語中的「重讀」其實是音高變化,而剩餘的三個元素,則都在語言中獲得了普遍的運用

拿漢語舉例

【音質】很容易理解,就是發音除去聲調

而聲調自己則分爲【音高】和【音長】兩項

漢語普通話的四聲,是四種不一樣音高變化模式

一聲 是 保持音高

二聲 是 音高由低到高變化

三聲 是 音高從高到低再到高

四聲 是 音高由高到低

雖然咱們語文課裏說輕聲是沒有聲調,但實質上輕聲是縮短音長,輕聲通常是縮短音長的四聲或一聲(有時音高很低),不太輕聲很短,比較難以聽清,因此普通話中僅做爲特定用途使用 (語氣助詞、複數標誌等)

英語的【重讀】其實是音高的差別,因此嚴格地說,英語是有聲調的,只不過英語的音調只有兩個:高和低,可是英語中音調僅用於部分音節,除了表示疑問、強調等狀況,一般英語單詞不變調,除少許英語單詞(如Record)外,英語單詞不借助音調來區分不一樣的詞義,英語的確使用音長要素(如Sheep和Ship)因爲英語通常只用音質和音長來區分詞義,因此通常也認爲是一種沒有聲調的語言。

首先從【編碼效率】上,咱們能夠說【漢語】是世界上編碼效率最高的語言

漢語是世界上爲數很少的使用音高來區分不一樣單詞的語言,所以從編碼上說,漢語發音的表意能力就比通常語言高出一個維度,也就是說,使用單個音節,漢語可以表達的不一樣信息的種類,理論上最高能夠達到通常外語的4倍

爲何外國人學漢語學得這麼辛苦,而中國人學英語則沒有那麼辛苦?就是中國人是已經掌握了在發音是音高變化,如今再去學低級的兩個固定音高。而在學習漢語中,不少外國人最吃力的問題之一就是聲調。由於只習慣於兩個固定的音高,而沒有聽到過、練習過在發音時連續變化音高。

有人提出,聲調自己會影響發音速度,這固然是存在的,比方說二聲,要求發音時音調逐漸上升。要表現出這個,發音時要表現出兩個音調,天然是要比單一音調要費事,可是聲調的好處在於,可以在同一組輔音和元音組合的基礎上產生出多種不一樣的發音,因此就沒必要藉助更多的輔音來區別兩個具備相似發音的詞(好比英文life和light)

英文音節中,輔音-元音組模式的音節,發音確實比漢語略快。可是其餘模式,諸如輔音-輔音-元音組-輔音(Blight)或輔音-元音組-輔音,每每就比漢語發音慢了。而輔音-元音組模式的音節,因爲英語缺少音調,因此數量遠小於漢語。總體平均下來,英語單個音節的發音慢於漢語

對於「英語單個音節的發音應慢於漢語」這個結論,可能有的人以爲不是很信服。咱們來舉一個很是簡單的例子,普通中國人的初等數學能力每每超過歐美。這並不簡簡單單是教育的問題,更關鍵地,這是中文對數字命名結果。

漢語全部數字均爲單音節

其中6和9有兩個元音(或按照國際學術便準,三個元音),發音稍慢

0有後鼻音,發音可能稍慢,還有幾個帶捲舌音,可能會稍慢

英語全部數字,除7之外,所有都是單音節

其中覆蓋了「輔音-元音」結構(如4)

「輔音-輔音-元音」結構(如3)

「輔音-元音-輔音」結構(如5)

「輔音-元音-輔音-輔音」結構(如6)

"元音-輔音"結構(如8)

雙元音結構(如0,注意通常數字裏0讀「ou」,不讀zero,後者實在太費勁了)

能夠說英語的這些數字大體包含了英語的各類單音節詞的音節結構,固然這裏尚未最神奇的輔-輔-元-輔-輔結構,可是那個和單元音結構同樣比較少見。

那麼平均下來英語的數字比漢語慢多少呢?

那麼平均下來英語的數字比漢語慢多少呢?

首先咱們須要知道,人對數字的短時間記憶,其實是對數字發音的記憶。換句話說,你能記住的數字位數,是由數字發音的總長度決定的

研究代表(詳細請下載,自行閱讀)

http://deepblue.lib.umich.edu/bitstream/handle/2027.42/26140/0000216.pdf?sequence=1

中國人從小開始短時間數字記憶能力就高過美國人,該文獻說明,美國大學生的數字記憶長度平均爲7.2位,中國大學生爲9.2位。美國大學生的短時間數字記憶位數,是中國學生的78.26%。換句話說就是,英語數字的平均發音長度比漢語數字高27.78%,去掉英文數字7(雙音節)對平均音長的影響(10%)那麼平均下來,單音節英語發音長度大概比漢語高17.78%左右。

更進一步,中國的數字都是不折不扣的單音節,所以能夠採用絕對邏輯的方式構建整個數字表。九十六,就是九個十加一個六。英語是「90」(與九和十都不一樣的特殊詞)再加一個6。法語是4個20加16

【漢語】是一種最簡潔而最富邏輯的結構,在世界上是極爲罕見的,九九乘法口訣表,就是構建在這個基礎上的。其餘國家的兒童若是想背下來這張表,能夠說比中國兒童難了幾倍,這種語言上的優點就提升了中國人的初等數學能力

順便,還有人說,古漢語聲調更多啊,難道漢語愈加展越回去了麼?這固然是錯誤的,有些音調受說話者情緒等條件的影響,在辨識的時候不肯定性因素比較多。這個問題咱們將在抗噪能力一節中詳細講解

##5、信息論上的優點

從信息論角度來考慮,編碼是頗有學問的。舉個例子,咱們知道計算機傳輸信息,實際上傳輸的都是0和1。那麼,若是咱們傳輸的各類信息出現的頻率不同高怎麼辦?答案是,出現越頻繁的,編碼越短。這樣就能提升整體效率

比方說,咱們只有四種信息要傳遞,按通常的想法,天然是把這四種信息分別用00、0一、十、11來表示。每一個信息都須要用兩位二進制數來表示,也就是說傳播100條信息須要發送200個二進制數。可是若是其中有一種信息出現的機率是91%,而另外三種分別是3% 那麼就能夠使用另外一種編碼方式:1,01,001,000 平均下來這種傳播方式傳播100條信息須要發送91+23+33+3*3=115個二進制數。顯然比前面那種效率要高。

世界各主要語言通過了幾千年的進化,其詞彙的長度分佈,都比較符合信息論的要求,你會發現各個語言中越經常使用的詞,通常就越短。英語裏,我、你、他、她、咱們,都是單音節詞

英文的單音節詞很是豐富,實際上比中文的單音節發音要多。這是由於英文能夠在一個輔音-元音組合的先後都添加輔音,來實現各類不一樣的單音節發音,這樣排列組合下來,英文的單音節詞就是一個比較龐大的詞庫了,可是這就有一個代價,就是抗噪性能低,這個問題咱們放在下一節講解。

按西方音節定義,英語的單音節詞的使用比漢語要頻繁,根據統計分析,漢語使用者平均詞長約爲1.5字上下(見《ReadingChineseScript: A Cognitive Analysis》這本書裏有一個章節《Eye Movements in Reading Chinese andEnglish Text》)

而成年英語使用者平均每詞音節數約爲1.4(見

http://www.waisman.wisc.edu/phonology/pubs/PUB30.pdf

這也獲得了另外一個研究的支持:分析10小時的發聽錄音,平均沒詞音節長度爲1.38)。

因此,就音節數而言,漢語詞平均比英語詞長7.14%,然而,考慮到英語一個音節比漢語單音節實際上長得多(即使把上一節獲得的17.78%折半,也有8.89%)再加上漢語每音節信息含量大體比英語高3.30%(見第三節數據)從信息論的角度講,漢語的信息傳遞效率基本上比英語高

這一點也獲得了另外一個實驗的驗證

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3111932/

這篇論文找了8個漢語使用者和8個英語使用者,而後讓他們兩人一組。一組之中,一我的描述圖片(描述者),另外一我的根據描述來繪製(繪畫者)。最後對比圖片的準確度,同時觀察描述者的語言。

最後結果是,漢語描述者明顯比英語描述者先開始描述,描述者開始描述與繪畫者開始繪畫之間的時間差,漢語使用者低於英語使用者,繪畫時間,漢語繪畫者低於英語使用者,總體時間,漢語組顯著低於英語使用者,漢語組全部都比英語組快,並且越複雜的繪畫,漢語組就快得越多。

繪畫結果,144次繪畫。漢語組平均每次犯8.1個錯誤

其中描述者平均每次犯3.7個錯誤,繪畫者犯4.4個錯誤

英語組平均每次犯13.25個錯誤

其中描述者平均每次犯8.5個錯誤,繪畫者犯4.75個

二者的差距仍然在統計偏差以內。因此並不算顯著

(嗯,是誰說漢語沒有英語精確來着?)

以後,爲了考慮繪畫者的技巧差別,讓每一個繪畫者直接對照原圖繪畫。結果【漢語】組反而慢於【英語】組。繪畫期間,漢語組使用音節數顯著少於英語使用者,兩組語速(每秒音節數)接近(這個結論與前面的播音速度分析結果一致)。

這雖然是一個初步的實驗,可是仍是能看出漢語在交流上的優點的:用詞更少,時間更短,描述精確水平差很少(若是不是更高的話)這個實驗還說明了……我國人民美術水平還有待提升……

至於歐洲主要其餘語言,根據第三節提到的數據,它們發音頻率比英語高,信息密度比英語低,要那些語言在這方面超過漢語,我以爲可能性不大

##6、組詞邏輯

因爲英語單音節詞資源比較豐富,但平均發音長度較長,因此你會注意到英語裏單音節詞比例高於漢語,而多音節詞的使用比例就小於漢語,不少邏輯上很是相關的詞因爲不得不所有擠入有限的單音節詞庫,其發音就失去了聯繫。這就致使英語的經常使用詞每每【缺少】組詞的邏輯

好比咱們能夠很輕鬆地說「公雞」、「母雞」、「小雞」、「雞蛋」

而英語裏就成了「Cock」、「Hen」、「Chick」、「Egg」,毫無聯繫

若是經常使用詞要創建聯繫,那麼英語就必須提升這些單詞的音節數,那麼平均詞長就要上升,從信息論角度講,信息傳遞效率就更低了,因此【英語】只能在組詞的邏輯性上進行妥協

相比之下,漢語就從容的多了,即使在當前這種信息效率下,漢語仍然能保證絕大多數詞語構造具備邏輯性,所以相比於英語詞彙,【漢語】詞彙就比較容易記憶,這就產生了一個結果,那就是漢語的經常使用詞彙量遠遠多於英語。

英文使用者的單詞量和生詞辨識能力可見1995年的如下論文:

http://jlr.sagepub.com/content/27/2/201.full.pdf

其中,大學平生均自稱單詞量爲16141,通過多項選擇測試發現,平均可以辨識其中71%的詞彙,也就是說平均大學生詞彙量估計爲11460個單詞。老年人平均自稱單詞量爲21252,通過多項選擇測試,發現平均能辨識其中80%,也就是說老年人的詞彙量大體爲17002,對於從未見過的詞的正確理解機率,大學生爲30%,老年人爲39%

沒找到中國的相關研究,不過這裏是商務印書館的《現代漢語經常使用詞表(草案)》

http://wenku.baidu.com/view/51636fec551810a6f5248676.html

你們能夠進去看看本身的詞彙量,我感受大學生達到五萬應該不成問題。並且這確定不是一我的的所有單詞量,不過這裏面有些詞是英語裏幾個詞合起來的,因此中國人詞彙量未必比美國人高這麼多,但我以爲定性的結論仍是能夠下的

另外裏面可能有你沒見過的詞,能夠看看有多少你猜不出正確含義……我以爲除了極少數,確實沒什麼難度……

另外,漢語和英語都各自在組詞上有一個弱點

漢語有大量的【同音詞】例如「攻擊」和「公雞」

英語有大量的【多義詞】英語的Ball既能夠是球也能夠是舞會

漢語中,曾經在文言文中大規模使用的單音節多義詞如今大多變成了雙音節單義詞,漢語中真正的多義詞(各個意思之間沒有直觀邏輯聯繫)是極少數。而英語裏的同音詞也是極少數,能夠說這兩種語言在各自的發展路徑上都作了妥協

因爲英語多義詞比例比較大,因此儘管英語使用者詞彙量比漢語使用者低,也不能說明英語的描述能力不如漢語,另外,美國大學生的詞彙量遠低於老年人,這說明他們並非已經記下了全部能見到的詞彙,而是在那個年齡段,尚未足夠的時間記下。所以能夠看出,英語一詞多義不少的緣由,極可能就是英語單詞的記憶難度比漢語大。

總的來講,因爲漢語精簡了發音,而且每音節信息密度較高,這使得漢語能夠有較長的平均詞長,所以組詞邏輯相比於英語就有了必定的優點,至於其餘主要語言,信息傳遞效率與漢語相比差距更大。主要方面都沒法相比,這種次要方面就不須要再比了

各個國家名族只要是本身的母語就是最好的,不必來吹噓漢語英語韓語日語什麼的是最好最科學的,

##7、強勁的抗噪能力

前面講到,英語依靠大量的單音節詞纔可以接近漢語的信息傳遞效率。但這不是沒有代價的。構造大量的單音節詞,就須要在詞彙中使用大量的輔音

輔音分爲兩種

一種屬於【響音】,就是可以持續發音的,諸如m、n、ng

(除這類輔音外,全部的元音也都是響音)

一類叫作【阻礙音】阻礙音自己發音短促、強度低、音高也很低

只有當阻礙音與元音結合,才能發出強度比較大的音。

漢語普通話中,全部阻礙音都是與元音結合的,而英語以及歐洲全部拼音語言,都大量使用了不與元音結合的阻礙音,事實上,古漢語中不與元音結合的阻礙音是極度常見的,音節結構比現代漢語的諸多方言都複雜,可是後來這種輔音用法就基本淘汰了

具體上古漢語的發音案例,你們能夠自行搜索 《關雎》上古漢語朗讀

雖然學界對上古漢語的具體發音還有不少爭議

但古漢語音節的複雜度在那個朗讀中體現得很好

回覆

樓主:頂貼專用馬甲2013 時間:2013-08-13 01:43:11

消滅獨立的阻礙音,首先加快了發音速度,第二保證全部音都具備很高的強度。可是其代價就是大大縮小了單音節詞庫,不過在上面的比較中咱們能夠看出,這個代價是值得的,漢語的信息傳遞效率仍然很是高。

那麼咱們繼續一個前面提到的話題,是否是音調越多越好呢?

有一個搞笑論調是這麼說的 "咱們的普通話叫「mandarin」,什麼意思啊? 滿大人,滿族人清朝入關以後,說不出咱們的口語,他就把不少調去掉了,把入聲去掉了。說的發音愈來愈簡單了,而後逼着全國人都這麼說,因此咱們如今的口語比粵語要簡單得多

這是一個很是愚昧的論調

首先,Mandarin 這個英語單詞來自於葡萄牙語 mandarim 葡萄牙語這個詞又來源於馬來語m?nt?ri 馬來語這個詞來源於梵語mantrin 而梵語這個詞的意思是官員

換句話說,mandarin的願意是【官話】

並且Mandarin這個詞能查找到的最先的記錄出現於1589年

你們能夠查查那時候「滿大人」在哪裏呢

不少人覺得粵語是正宗的漢語發音,這話對,也不對。粵語具有一些中古漢語的發音特徵。可是它也是在【中古漢語】的基礎上發展而成的,語音仍是有至關大的差別

有人認爲北方官話/中原官話的造成,是由於蠻族入侵「污染」了漢語,這個說法一樣,對,也不對。北方官話之因此在中古漢語的基礎上進一步的發展,就是由於戰爭與征服。北方漢民與語言不通的外族加深的了交流,多種族的融合,教育,逐漸把一些發音變得更加容易

舉一個例子,粵語裏白菜的白是Baak6,普通話是Bai2 粵語裏尾部的這個k是一個不發音的舌頭動做,這個動做略微改變了原來Baa的發音,但這個音,若是不費力就很難形成Baa明顯的變化。相比之下,Bai自己就容易發,雙元音ai的發音是經過舌頭跟隨下顎動做完成的。咱們知道咀嚼肌的力量比舌頭大,運動也快,依靠下顎完成的ai音顯然比依靠舌頭完成的aak音要容易發,固然這不是一個公平的比較。相比之下普通話Liu、Lang的發音難度與粵語Baak相近,可是這兩個音的尾部都是響音,不須要費力就能發得很清楚

與這個不發音的k相似的,還有粵語中p和t結尾,這種發音方式正式名稱叫作不除阻的【塞音尾】在亞洲不少國家和方言裏都有,這應該是【古漢語】流傳下來的特色,這種【塞音尾】既不抗噪也不省力,在交流更普遍、更頻繁的北方方言裏是很難見到的,應該是已經演化成其餘發音了

粵語依具體方言不一樣,有6-10個聲調,其音高變化模式並不超出普通話的四個音調,之因此多出來這麼多音調,是由於粵語還引入了不一樣基準音高,比方說在一些方言裏,粵語的第一、三、6聲都是保持音高,可是這三個聲調各自保持的音調高度不一樣。再好比粵語第二、5聲,都是音高由低到高變化,但起始音高不一樣,粵語總共有四種不一樣的基準音高,分別是do、re、mi和sol,相似的狀況在不少南方方言裏都存在。

這就是爲何有時候南方方言聽起來有些像唱歌,大概也就是爲何吳儂軟語聽起來很好聽。

然而粵語音調最大的問題就是,每個人音調高低是不同的。有的人說話音調高,有的人音調低,沒有一個統一標準,甚至同一我的說話的時候,在低沉、平靜、激動時,音調高低也是不一樣的,所以,與一個不熟悉的人說話,出現單獨的一個音高或兩個音高,都很難分辨出究竟是哪一聲,必需要三到四個基準音高都繁出現,才能判斷準確對方的音高究竟屬於哪一聲。而這些基準音高是否會頻繁出現,這就是比較看人品的了

固然,就漢語的冗餘度而言,一部分音高判斷不許是沒有太大關係的

但這就讓粵語發音多變的優點大大削弱了。

此外,粵語的七、八、9聲都是短促音,其音高和音高變化模式與一、三、6聲沒有區別,短促音抗噪能力不如普通音長的發音,但它們的發音速度更快,不過在現今人類口語交流中,瓶頸是大腦的思惟速度,發音速度太快並無明顯的好處

有人問到底多少個聲調最合適,我以爲這很很差說。如今沒有客觀的評估,可是不管如何有聲調的漢語(及其方言)老是要比沒有聲調的外語強

那麼漢語的抗噪性能有沒有什麼證實呢?

有的。出了國,尤爲是到了歐美的人,就會發現一個問題。那就是中國人說英語,相比於當地人來講,總有點含混不清。外語老師老是要求中國人說英語的時候嘴巴要張大、舌頭的運動要有力,甚至要求用牙齒咬住一根鉛筆來訓練脣舌運動

這是爲何呢?由於中國人已經習慣了脣舌微微運動的發音過程。

漢語發音具備很高的信號強度,並且因爲捨棄了全部單獨發音的輔音,因此一個音節裏的元音就能保持更長的時間(這也就是爲何咱們通常以爲漢語說話比英語慢的緣故)咱們知道長時間保持一個信號,也有利於對抗隨機噪聲。發音強度大、元音維持時間長,這就致使,同等發音強度時,漢語的抗噪能力更增強大

換句話說就是,同等噪音條件下,漢語所須要的音量更小

所以漢語使用者發音沒必要費力,脣舌運動幅度比英語之類明顯小

##8、口語的速度

說到口語的速度,咱們先來看這篇論文:

http://ldc.upenn.edu/myl/llog/icslp06_final.pdf

圖1顯示,根據一些談話樣本,當去掉沉默與噪音佔據的時間後

英語會話者每分鐘通常可以說160-280個詞

漢語會話者大體是250至400詞(這裏不是字)

這差很少是普通人不受思緒影響的最高語速

因此能夠看出,漢語的理論最高信息傳遞能力是【遠遠高於】英語的。

但實際上受限於【思惟速度】,二者的速度差距並不大

下面這篇論文研究了在不一樣語速下聽衆正確聽得每一個字的機率

http://www.sciencedirect.com/science/article/pii/S0169814104001581

英文播音平均每分鐘210-252個音節與漢語播音平均每分鐘240-260字沒有顯著區別。能夠說,人類接受語音的速度,如今是受到了【人腦處理能力】的限制。上面的播音速度,都不是播音員最快的說話速度,而是爲了保證觀衆正常收聽才控制的速度

隨着交流的日益深刻,人類說話的速度實際上在加快,40年前美國通常語速是145詞每分鐘。現在是160-170詞每分鐘,中國60年代播音185字每分鐘,現在是240-260字每分鐘,這也許是信息的豐富讓人腦的處理能力上升的緣故

[img] http://801.tianyaui.com/res/2013/1114/1384417603144.jpg[/img]

##9、漢字:偉大的基礎

漢語一開始也是一種【綜合語】大量使用詞根、詞綴。可是從文字角度,漢字爲漢語成爲【孤立語】提供了很是關鍵的基礎結構,漢字致使詞形變化沒法記錄在紙上。最後詞形變化就只能用額外的漢字來標記了。而這個增長的漢字就變成了一個通用的邏輯規則,也就與修飾的特定詞失去了必然關係,這樣漢語就逐漸變成了【孤立語】

正是因爲漢字將【讀音】與【書寫】割裂,使得漢語的語音可以相對自由地發展

所以,漢語語音在幾千年中變化如此之大,而咱們的文化卻沒有割裂

更進一步地,因爲漢字並不受限於讀音,所以能夠創造出大量同音異形字,幫助漢語下降平均音節長度、提升組詞的邏輯性。雖然在口語上,漢語的同音異形詞和英語的多義詞都屬於「同一發音可能包含不一樣含義」的狀況。但寫到紙面上,同音異形詞就比多義詞更容易辨識,減小歧義的可能。

有人可能會問,漢語口語交流,並無多少歧義的問題,那爲何文字中會須要額外的消除歧義的能力呢?這是由於通常狀況下口語交流是一種雙向交流。若是發現有可能有歧義,能夠向對方詢問,主動消除歧義

而文字每每是一種單向交流(不包括網上文字聊天……)一旦出現歧義,就很難消除,所以文字裏的歧義通常須要比口語更小。咱們的文字、咱們的語音以及咱們整個語言總體,都是有機結合在一塊兒的。推崇漢字的拼音化或拉丁語話,都是沒有看清這種密切聯繫

反面教材就是韓國,盲目將文字拼音化的,結果出現把防水材料搞成吸水材料的笑話(韓語裏「防水」和「放水」讀音一致,結果建築公司錯誤理解了圖紙)

再有,因爲漢字不須要空格,因此相比於相似字號的英文單詞,同一個詞要高而窄,這在排版上有很大的優點(行距要佔用額外的空間,高而窄能夠減小行數)加上漢語自己信息密度高,因此通常咱們看到的中文版的書面文件都比外文版的頁數少

##10、閱讀速度的比較

和語音同樣,閱讀速度一樣受到大腦處理速度的制約,因此各個主要語言區別不大

《ReadingChineseScript: A Cognitive Analysis》這本書裏有一個章節《Eye Movements in Reading Chinese andEnglish Text》專門講閱讀中英文時的眼球移動,這是中科院和悉尼大學的兩位學者寫的

熟練的中文閱讀者可以每分鐘閱讀386箇中文詞彙

而熟練的英文閱讀者能夠每分鐘閱讀382個英文詞彙

通常人可能會低100詞左右

具體速度還取決於文章的複雜程度,文章簡單的話閱讀速度就更快。

漢語使用者眼睛每次凝視能夠閱讀1.71個詞(2.57個漢字)每次凝視平均257毫秒

英文閱讀者每次凝視能夠閱讀1.75個詞,每次凝視平均265毫秒。

整體上說,二者閱讀速度不相伯仲

##11、雙線並行讀取能力:更穩定

通過長期的研究,人們發現不一樣語言使用者在閱讀時使用的大腦區域是不一樣的

如下這篇文章提供了部分綜述

http://www.pitt.edu/~perfetti/PDF/Brain%20activ%20process%20Chinese%20char%20and%20words-%20Tan%20et%20al..pdf

閱讀本身母語時,閱讀【漢語】的人 腦部激活範圍 比閱讀【英語】的人大。英語閱讀者在閱讀時主要激活左腦 的一些部分,而漢語閱讀者則同時激活左右腦,這是一個頗有意思的發現

由於,時序信號(語音就是時序信號)的處理區域通常在左腦

圖像、空間信息的處理區域通常在右腦

因此,不少人認爲,漢語閱讀者的閱讀實際上有兩個處理通道,就是說,在閱讀漢語時,咱們老是一邊經過圖像來直接識別文字含義,一邊經過圖像轉換爲讀音而後來識別文字含義,而表音語言只有一條顯著的處理通道

##12、不夠嚴謹?

有人說【漢語】的劣勢就是不夠嚴謹,這其實能夠說是孤立語和綜合語的差別。孤立語對於詞的具體含義須要經過上下文肯定,若是上下文給予信息不足,就有可能出現歧義。而不少時候,上下文只能代表這個詞更多是什麼意思,而不能徹底否認其餘理解,這雖然在交流中不會有什麼問題,可是在那些防止別人鑽空子的文件裏就可能形成問題

咱們舉個例子:「中國毫不會首先使用核武器。」

這句話有三種解釋:

一、在敵方沒有使用核武器以前,中國不會使用核武器

二、中國在使用常規武器以前不會使用核武器

三、中國不會是世界上第一個使用核武器的國家

很顯然理解應該是1,可是並沒有法否認2和3的可能性

所以,不少人認爲【漢語】的這種不嚴謹性會妨礙法律條文和合同。

可是英文難道就很嚴謹麼?

He ran into a girl with an umbrella

帶傘的是男的仍是女的?

I saw a car with a big flag, whichlooked really evil

哪一個看起來很邪惡,車仍是旗子?

China will not be the first to use anuclear weapon.

這應該是上面的解釋1仍是3?

想要作到嚴謹,都須要考慮到其餘人閱讀時的想法,而後用其餘語句來消除歧義

順便推薦搞笑英語書籍《Anguished English: AnAnthology of Accidental Assaults Upon OurLanguage》裏面收錄了不少爆笑的歧義句,好比 If you have not got any fresh vegetables, you may get canned

因此,漢語要想說的嚴謹,也是沒有問題,只不過要比通常多一些口舌而已

分析語自己的表意效率就很高,多花一些筆墨,達到嚴謹的效果,也是徹底能夠作到的

因此這方面若是有差距的話,差距也不大

漢語與拼音文字的起源對比

如今拼音文字大行其道,有的人認爲這意味着拼音文字是更先進的文字,因此拼音文字打敗了表意/意音文字,事實上,單從二者的發展歷史,是得不到這個結論的。

文字,從一開始就是記錄信息用的,全部文明的最原始的文字,若是是天然生成的話,都是【象形文字】這個緣由並不難理解,一開始你們可能只要記錄今天是什麼日子、我有幾頭牛之類,顯然是畫個東西上去最簡單。中國、兩河流域、古埃及、古印度、瑪雅,一開始使用的都是象形文字。

從象形文字出發,一個文明能夠發展出不少種不一樣的字形,可是隨着須要表達的意思迅速增長,就須要不斷添加新的字形,這時比較簡單的辦法就是讓一個字型一部分表音一部分表意,中國漢字在擴展時主要採用【形聲字】策略,用形旁和聲旁組合成一個漢字

而埃及的【聖書體】也與此相似,聖書體的一個單詞包含兩個部分,一部分用象形符號表音,一部分用象形符號表意。

歐洲如今主要語言都起源於【拉丁文】,拉丁文又起源於希臘語。希臘人的字母表是腓內基人教的,而腓內基人的字母又是從埃及人那裏來的,與此同時,還發現了一種多是拼音文字的「前西奈字母」文字,這種文字與腓內基文字相似,也與聖書體有類似之處。有學者認爲,【腓內基文字】就起源於「前西奈字母」而「前西奈字母」則是【聖書文】的一種拼音簡化體,這相似於拼音文和漢字的區別

因此說白了,從腓內基開始,一直到如今歐洲諸國

其拼音文字的起源,大概都由埃及的【聖書體】中的表音部分演化而來。

須要注意的是,因爲口語先於文字出現,當一個民族尚未本身文字的時候,接觸到外來文明,就容易用外來文明的【字符體系】來構建本身的文字,對於這些民族而言,最簡單的就是用先進文明的字母體系來直接表達本身語言的發音。所以,自腓內基然後的歐洲的次生文明天然紛紛使用字母來記錄本身的語言。

再好比,日本儘管很早就引進了【漢字】可是漢字與其原有的語言(當時尚未文字)並不兼容,而漢語里根本就沒有簡單的拼音符號,可是日本爲了可以真實記錄本身的語言,最終衍生出了平假名、片假名爲漢字註音,後來這些就變成了日語的基本符號

[鐵證如山:日文是山寨了唐代曲譜,讓誰羞愧?

http://bbs.tianya.cn/post-worldlook-683879-1.shtml

從這裏就能夠看出,當【次生文明】在沒有發展出本身的象形文字體系就被原生文明文化入侵時,不管他們先接觸到的是什麼樣的原生文明語言,最終都會走上使用【拼音文字】的道路。這樣的拼音文字也很適合直接囫圇吞棗地引進外語的詞彙,方便向先進文明學習

這種特色一直流傳到今天

順便,看到有人說希臘是次生文明的這個說法,不得不解釋一句,希臘是埃及和兩河流域的次生文明,同時受到了兩大原生文明的哺育。這也就是爲何各國論述古文明的書籍中。希臘文明總比古埃及、兩河、中國等【原生文明】低一個等級,曾經看到有人用希臘來否認中國在古文明中的地位,這是很好笑的。

那麼爲何這世界上的表意文字這麼少呢?很顯然,這世界上的【原生文明】原本就那麼幾個,而【次生文明】卻要多幾個數量級。歷史大潮中三十年河東三十年河西,原生文明也有可能被次生文明所征服,在征服以後,語言也就有可能會逐漸消亡了。

因此,拼音文字普遍使用,這並不說明拼音文字就優秀

只能說這世界上的原生文明實在太少

相關文章
相關標籤/搜索