數學之美

時間 2019-11-09

標籤數學之美欄目應用數學简体版

原文原文鏈接

第一章文字和語言vs數字和信息網絡

　　通訊原理：產生、傳播、接收、反饋編碼

　　信息傳播模型：信息----（編碼）-----信息----（解碼）-----信息人工智能

　　（信源）編碼和最短編碼：經常使用字短、生僻字長spa

　　解碼的規則，語法：語法是語言的編碼和解碼的規則翻譯

　　聚類：概念的歸納和歸類，文字的聚類帶來一些歧義性orm

　　校驗位：校驗信息是否正確blog

　　雙語對照文本，語料庫和機器翻譯事件

　　多義性和利用上下午消除歧義性get

第二章天然語言處理從規則到統計數學

　　1956年達特茅斯夏季人工智能研究會：

　　　　28歲約翰•麥卡錫（圖靈獎得到者）

　　　　28歲馬文•明斯基（圖靈獎得到者）

　　　　37歲羅切斯特

　　　　40歲香農（信息論的發明人）

　　　　40歲赫伯特•西蒙（圖靈獎得到者）

　　　　28歲艾倫•紐維爾（圖靈獎得到者）

　　　　會議討論：人工智能、天然語言處理和神經網絡等

第三章統計語言模型

　　賈里尼克的出發點很簡單：一個句子是否合理，就看它的可能性大小，可能性用機率來衡量

　　S表示一個有意義的句子

　　w₁,w₂,...,w_n表示一連串特定順序排列的詞，n表示句子的長度

　　S在文本中出現的可能性就是數學上所說的S的機率P(S)

　　既然S=w₁,w₂,...,w_n

　　P(S) = P(w₁,w₂,...,w_n)

　　利用條件機率公式：S這個序列出現的機率等於每個詞出現的條件機率相乘

　　P(w₁,w₂,...,w_n) = P(w₁).P(w₂|w₁).P(w₃|w₁,w₂)...P(w_n|w₁,w₂,w_₂,...,w_{_n-1})

　　條件機率

　　是指事件A在另一個事件B已經發生條件下的發生機率。條件機率表示爲：P（A|B），讀做「在B的條件下A的機率」。若只有兩個事件A，B，那麼，

　　聯合機率

　　表示兩個事件共同發生的機率。 A與 B的聯合機率表示爲 P(AB) 或者 P( A, B),或者P(A∩B)。

　　馬爾科夫假設：假設任意一個w _i詞出現的機率只用它前面的詞w _i-1有關

　　P(S) = P(w ₁).P(w ₂|w ₁).P(w ₃|w ₂)...P(w _n|w _{_n-1})

　　根據大數定理，只要統計量足夠，相對頻度就等於機率

　　P(w _n-1,w _{_n}) ≈ #(w _n-1,w _{_n}) / #

　　P(w _{_n-1}) ≈ #(w _n-1) / #

　　P(w _n|w _{_n-1}) = #(w _n-1,w _{_n}) / #(w _n-1)

　　高階語言模型

　　假設文本中的每次w _i和前面N-1個詞有關，而與更前面的詞無關

　　P(w _i|w ₁,w ₂,w _₂,...,w _{_i-1}) = P(w _i|w _i-N+1,w _i-N+2,...,w _{_i-1}) 這種假設稱爲N-1階馬爾科夫假設，對應的語言模型稱爲N元模型

　　古德-圖靈估計原理：對於沒有看見的事件，咱們不能認爲它發生的機率就是零，所以咱們從機率總量中，分配一個很小的比例給這些沒有看見的事件

　　其中T是一個閾值，通常在8-10左右，fgt表示通過古德-圖靈估計後的相對頻度。

第四章談談分詞

第五章隱含馬爾科夫模型

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。