讀完數學之美,收穫不少,在這裏我對個人收穫進行簡要的總結,這些總結中不包括對具體算法和模型的詳解,詳解請參考其餘資料,這裏只進行簡要的總結。算法
文字、數字、語言和數學是自然的內在的聯繫。咱們的祖先過去在處理問題、設計語言的時候遵循的法則和咱們今天探求的研究方法背後有着共同的東西,那就是數學規律。網絡
信息 —— 編碼 ——> 信道 —— 解碼 ——> 信息函數
任何一種語言都是一種編碼方式,語言的語法規則就是編解碼算法。學習
基於規則的句法分析很快走到了盡頭:優化
只有基於有向圖的統計模型才能很好的解決複雜的句法分析。
基於統計方法的核心模型:
通訊系統 + 隱馬爾科夫模型網站
如何衡量一個句子s在文本中出現的可能性- s在文本中出現的機率p(s)搜索引擎
s = w1 w2 w3 ... wm p(s) = p(w1 w2 w3 ... wm) = p(w1)*p(w2|w1)*p(w3)*p(w3|w1,w2)*...*p(wm|w1,w2,...,wm-1) p(w1) 表示詞w1出現的機率 p(w2|w1) 表示w2出如今w1以後的機率
p(w1)好統計, p(w2|w1) 也還好統計,可是p(wm|w1,w2,...,wm-1)沒法統計!google
馬爾科夫提出了馬爾科夫假設:編碼
假設任意一個詞wi出現的機率只與他前面的詞wi-1有關
則有雲計算
s = w1 w2 w3 ... wm p(s) = p(w1 w2 w3 ... wm) = p(w1)*p(w2|w1)*p(w3)*p(w3|w2)*...*p(wm|wm--1)
對應的統計模型是二元模型 bi-gram
假設一個詞的機率又他前面n-1個詞共同決定,則成他爲n元模型 n-gram
不少亞洲語言、中日韓泰等,還有手寫的英語,須要一些手段將詞分開。
後來使用基於統計的方法進行分詞
分詞準確性很難衡量,不能說這個達到95%準確率的分詞器就好於另外一個90%準確率的分詞器。只能說它與人工分詞的吻合度稍微高一些而已。
信息 —— 編碼 ——> 信道 —— 解碼 ——> 信息
利用貝葉斯條件機率公式,從收到的消息中,還原信源的真實信息。
模型的具體詳情,這裏不作講述,須要參考其餘資料。
一個系統,內部有不少個狀態,這些狀態咱們不知道,可是咱們能看到不一樣的觀察序列。狀態之間的轉移有機率,每一個狀態發出哪一個觀察值也有機率。這樣一個模型爲隱含馬爾科夫模型。
信息和不肯定性有直接關係。若是要搞清楚一件很是不肯定的事情,須要大量的信息。若是對事情瞭解比較多,則不須要太多的信息就能把他搞清楚。信息量就等於不肯定性的多少。
香濃提出信息熵的概念,用來衡量信息量的多少。
信息熵的具體數學原理在這很少說,還需參考其餘資料。
衡量事件的相關性。
在天然語言處理中,用來衡量語義的相關性。
用來衡量兩個取值爲整數的函數的類似性。
一個傳奇科學家的一輩子的故事。向老師致敬!
三種運算: 與 或 非
就像擦字典同樣, 須要先去查到這個字的頁碼,在去這個頁看這個字的解釋。
就像圖書館找書同樣,須要先查到這本書在哪一個貨架哪一個位置,再去這個位置找到這本書。
相似,關鍵詞、網頁之間創建起了索引,這種快速拿關鍵詞去查找網頁的技術運用了布爾代數來實現。
廣度優先遍歷
搜索引擎其實是一個大圖,每一個網頁都是一個結點,網頁之間的超連接就是結點之間的弧。
經過爬蟲,在網頁的鏈接之間來回搜索網頁,也就是對圖進行儘可能徹底的遍歷,來實現了搜索引擎的數據。
在這裏,若是快速、不重複又完整的遍歷全部網頁是技術關鍵。
搜索引擎把什麼搜索結果排在前面?什麼排在後面?
通常來講,一個權威專家說, xxx 和xxx 是該領域的專家, 那麼絕大多數人都會覺着必定是這樣。
若是一個偷雞摸狗的不良少年說xxx是一個專家,可能你們都會笑笑就過去了,並不會信覺得真。
google rank 把全部網頁(結點)和網頁之間的連接(邊)創建起聯繫。 不一樣的邊有不一樣的權重,是對結點優先級的貢獻程度。 權威一點的網站指向來的路徑權重會稍大一些。 經過這樣的數學模型,把網頁的排序搞定了。
簡而言之如上所述,可是實際上要複雜得多。 具體的數學模型這裏不作敘述。
做者在這個章節講了 TF-IDF做爲一種度量,來衡量查詢的關鍵詞和檢索出網頁的語義相關性。
是一張圖, 有開始狀態和結束狀態還有中間狀態,全部狀態都是結點,狀態之間能轉移,就有通路。這樣一個圖模型,爲有限狀態機。總能通過有限次狀態轉換從起始狀態到終點狀態。
能夠用於文本的地址分析,xx省xx市xx市xx區xx縣xx街道xx號,這種狀態轉移
城市之間的道路能夠構建一個圖結構,道路的距離能夠定義成圖的邊權。在這種狀況下,導航兩個地點的最短路徑的時候,使用動態規劃算法進行最短路徑搜索。
向偉大的老師致敬。這是一位前輩科學家的故事。主要講述他設計和實現的算法又簡單又好用。
對於一篇新聞中全部的實詞,計算他們的tf-idf,把這些值按照對應的實詞詞彙表的位置依次排序,獲得一個向量。
好比: 詞表總有5個詞: a b c d e 文章x中全部實詞是: a d, 計算a d在文章x中的tf-idf 爲 0.1 0.3 則 x的特徵向量: [0.1, 0, 0, 0.3, 0]
做者在這裏提出餘弦類似度,用來衡量兩篇文章的中心思想的類似程度
對於兩篇文章的向量 a和b
cos<a,b> = <a, b> / |a| * |b|
分子是兩個向量的內積,分母是兩個向量模長的乘積。
算兩個向量的餘弦的大小,也就是兩個向量夾角的大小。雖然兩篇文章使用的關鍵詞的數量不必定同樣,但若是用詞比例接近,那麼向量方向就幾乎相同。
若是兩個向量同向共線,那麼他們語義徹底相同
若是兩個向量正交,那麼語義無關
若是兩個向量反向共線,那麼語義徹底相反
可使用餘弦類似度對文本進行聚類或者分類,把新聞分紅不一樣類別。
當類別太多的時候,分類任務很難,可使用自動聚類,把文檔從多到少最後聚類成一個類別,認爲決定哪一個中間結果是最好的聚類結果。
用一個大矩陣來表示詞和文章的關聯性。
假若有N個詞,M篇文章,能夠獲得一個M*N的矩陣:
A = (a_i,_j)_m*_n
其中aij表示第i行第j列元素,也表示第i篇文章在字典中第j個詞的加權詞頻(能夠用tf-idf或其餘的)
對A 進行奇異值分解,爲
Am*n = X_m*_x B_x*_x Y_x*_n
是一種技術手段,在大量文檔中,給每一個文檔一個指紋,全部文檔的指紋長度相同,每一個文檔有惟一的指紋,而且不一樣文檔的指紋相同的機率很是小。
生成指紋的方法:
介紹了一些算法,在信息論的指導下,加密算法在解密上的難度大大增長。
例舉了古代先哲研究航天問題的一些故事,道出了數學模型的重要性。
對一個隨機事件機率分佈進行預測的時候,咱們的預測應當知足所有已知條件,而對未知狀況不要作任何主觀的假設。在這種狀況下,機率分佈最均勻,預測的風險也最小。由於這時候機率分佈的信息熵最大,因此叫作最大熵模型。
模型算法具體內容不敘述,請參考其餘資料。
採用通用的迭代算法GIS算法:
後來有科學家提出了改進的gis算法爲 IIS 算法,加快了模型的訓練。
對漢字的編碼氛圍兩部分:
向偉大的前輩致敬。講了這位老前輩在管理和教學上的優秀成果。
一個快速從集合中查找是否已經存在某元素的算法。
貝葉斯網絡的具體算法不進行介紹,還請參考其餘材料
條件隨機場是聯合機率分佈的有效模型。
在隱含馬爾科夫模型中,觀察值序列中某一個時刻都觀察值xi只與同時刻狀態有關yi,若是xi與該時刻先後的狀態yi-1 yi yi+1 都考慮有關,對應的模型就是條件隨機場。
x爲看到的東西,在淺層分析中,他是句子的詞、每一個詞的詞性等。
y爲要推導的東西,語法成分,好比 名詞短語、動詞短語、時間短語等。
曾用於每一個城市犯罪的時間地點預測,去的至關不錯的成果。
講述了科學家維特比的故事。向偉大的科學家致敬。
維特比算法是一種圖中最短路徑的動態規劃搜索算法。
該算法主要用於隱馬爾科夫模型中。
在這本書中,我看到的EM算法,我感受就是k-means聚類算法,沒有感受到他和kmeans的不一樣。在學校的模式識別課上也學到了EM算法,當時覺着特別難理解,根本理解不上去。在這裏我就不胡亂給出看法了。還望大神多多指點。
第一階段——競價排名,誰給的錢多誰排在前面
猜測:給得起錢的公司都是賣好東西的大公司。
結果:不少給大錢的公司是賣殘次品得到高昂利潤的公司。
第三階段——進一步進行全局優化
廣告推薦這裏有不少數學問題,不能進行詳細說明。還請參閱其餘材料。
logistic迴歸算法不作介紹,請參考其餘材料。
後來各個公司紛紛採用logistic模型來作本身的廣告點擊率預測模型。
分治算法思想,把大問題逐個分解成小問題,小問題的解合併成大問題的解。
google開發出mapreduce以後,實現了把超大問題放在多個不那麼強悍的計算機上進行分治求解,從而實現了雲計算的基礎。
主要講了google利用神經網絡算法構建出了google大腦,神經網絡算法不進行詳細介紹請參考更多權威資料。
這章中做者講了不少內容 頗有意思,頗有做者的我的觀點,卻也我感到十分認同。
其餘內容就不細說了,總之帶有了做者主觀色彩卻又讓人折服。
我的讀完數學之美的總結。但願對其餘人有幫助,也留給本身從此回來參考。
歡迎披露與指正