第一章 文字和語言vs數字和信息網絡
通訊原理:產生、傳播、接收、反饋編碼
信息傳播模型:信息----(編碼)-----信息----(解碼)-----信息人工智能
(信源)編碼和最短編碼:經常使用字短、生僻字長spa
解碼的規則,語法:語法是語言的編碼和解碼的規則翻譯
聚類:概念的歸納和歸類,文字的聚類帶來一些歧義性orm
校驗位:校驗信息是否正確blog
雙語對照文本,語料庫和機器翻譯事件
多義性和利用上下午消除歧義性get
第二章 天然語言處理 從規則到統計數學
1956年達特茅斯夏季人工智能研究會:
28歲約翰•麥卡錫(圖靈獎得到者)
28歲馬文•明斯基(圖靈獎得到者)
37歲羅切斯特
40歲香農(信息論的發明人)
40歲赫伯特•西蒙(圖靈獎得到者)
28歲艾倫•紐維爾(圖靈獎得到者)
會議討論:人工智能、天然語言處理和神經網絡等
第三章 統計語言模型
賈里尼克的出發點很簡單:一個句子是否合理,就看它的可能性大小,可能性用機率來衡量
S表示一個有意義的句子
w1,w2,...,wn表示一連串特定順序排列的詞,n表示句子的長度
S在文本中出現的可能性就是數學上所說的S的機率P(S)
既然S=w1,w2,...,wn
P(S) = P(w1,w2,...,wn)
利用條件機率公式:S這個序列出現的機率等於每個詞出現的條件機率相乘
P(w1,w2,...,wn) = P(w1).P(w2|w1).P(w3|w1,w2)...P(wn|w1,w2,w2,...,wn-1)
條件機率
是指事件A在另一個事件B已經發生條件下的發生機率。條件機率表示爲:P(A|B),讀做「在B的條件下A的機率」。若只有兩個事件A,B,那麼,
其中T是一個閾值,通常在8-10左右,fgt表示通過古德-圖靈估計後的相對頻度。