數學之美

第一章 文字和語言vs數字和信息網絡

  通訊原理:產生、傳播、接收、反饋編碼

  信息傳播模型:信息----(編碼)-----信息----(解碼)-----信息人工智能

  (信源)編碼和最短編碼:經常使用字短、生僻字長spa

  解碼的規則,語法:語法是語言的編碼和解碼的規則翻譯

  聚類:概念的歸納和歸類,文字的聚類帶來一些歧義性orm

  校驗位:校驗信息是否正確blog

  雙語對照文本,語料庫和機器翻譯事件

  多義性和利用上下午消除歧義性get

 

第二章 天然語言處理 從規則到統計數學

  1956年達特茅斯夏季人工智能研究會:

    28歲約翰•麥卡錫(圖靈獎得到者)

    28歲馬文•明斯基(圖靈獎得到者)

    37歲羅切斯特

    40歲香農(信息論的發明人)

    40歲赫伯特•西蒙(圖靈獎得到者)

    28歲艾倫•紐維爾(圖靈獎得到者)

    會議討論:人工智能、天然語言處理和神經網絡等

 

第三章 統計語言模型

  賈里尼克的出發點很簡單:一個句子是否合理,就看它的可能性大小,可能性用機率來衡量

  S表示一個有意義的句子

  w1,w2,...,wn表示一連串特定順序排列的詞,n表示句子的長度

  S在文本中出現的可能性就是數學上所說的S的機率P(S)

  既然S=w1,w2,...,wn

  P(S) = P(w1,w2,...,wn)

  利用條件機率公式:S這個序列出現的機率等於每個詞出現的條件機率相乘

  P(w1,w2,...,wn) = P(w1).P(w2|w1).P(w3|w1,w2)...P(wn|w1,w2,w2,...,wn-1)

  條件機率

  是指事件A在另一個事件B已經發生條件下的發生機率。條件機率表示爲:P(A|B),讀做「在B的條件下A的機率」。若只有兩個事件A,B,那麼,

     
  聯合機率
  表示兩個事件共同發生的機率。 AB聯合機率表示爲 P(AB) 或者 P( A, B),或者P(A∩B)。
  馬爾科夫假設:假設任意一個w i詞出現的機率只用它前面的詞w i-1有關
  P(S) = P(w 1).P(w 2|w 1).P(w 3|w 2)...P(w n|w n-1)
  根據大數定理,只要統計量足夠,相對頻度就等於機率
  P(w n-1,w n) ≈ #(w n-1,w n) / #
  P(w n-1) ≈ #(w n-1) / #
  P(w n|w n-1) = #(w n-1,w n) / #(w n-1)
  高階語言模型
  假設文本中的每次w i和前面N-1個詞有關,而與更前面的詞無關
  P(w i|w 1,w 2,w 2,...,w i-1) = P(w i|w i-N+1,w i-N+2,...,w i-1)    這種假設稱爲N-1階馬爾科夫假設,對應的語言模型稱爲N元模型
  古德-圖靈估計原理:對於沒有看見的事件,咱們不能認爲它發生的機率就是零,所以咱們從機率總量中,分配一個很小的比例給這些沒有看見的事件
      
    

            

  其中T是一個閾值,通常在8-10左右,fgt表示通過古德-圖靈估計後的相對頻度。

  
第四章 談談分詞
  
第五章 隱含馬爾科夫模型
相關文章
相關標籤/搜索