《數學之美》讀書筆記

數學之美

一,文字和語言 數字和信息

  • 語言研究的兩種方向:語料,語法
  • 猶太人抄聖經的校驗數

二 天然語言處理 從規則到統計

  • 基於統計的句法分析

三 統計語言模型

  • 一個句子是否合理,取決於其存在的可能性。
  • 統計語言的二元模型
  • 馬爾可夫鏈
  • 高階語言模型
  • 零機率問題:古德圖靈估計公式

四 談談中文分詞

  • 查字典法
  • 統計語言模型方法:分詞後句子出現的機率最大
  • 動態規劃 維特比譯碼
  • 英文手寫體的識別
  • 分詞的層次概念

五 隱含馬爾可夫模型

  • 訓練算法(鮑姆-韋爾奇算法)
  • 解碼算法(維特比算法)
  • 天然語言處理、機器學習

六 信息的度量和做用

  • 信息熵
  • 條件熵 相關搜索
  • 互信息 熵與條件熵的差別。解決詞義的二義性(亞讓斯基)
  • 相對熵 衡量兩個正值函數的類似性,度量兩個隨機分佈的差別性,比較兩詞是否同義,比較文章是否同類,TF-IDF

七 賈里尼克和現代語言處理

  • bcjr算法

八 布爾代數和搜索引擎的索引

  • 用一個很長的二進制表示一個關鍵字是否出如今每篇文獻中。多個關鍵詞就是求與。

九 圖論和網絡爬蟲

  • 廣度優先和深度優先。
  • 優先級隊列
  • 頁面分析 URL提取,模擬腳本
  • hash記錄

十 pagerank

  • 一個網頁的排名=全部指向這個網頁的其餘網頁的權重之和。
  • 矩陣相乘,迭代。
  • 稀疏矩陣。

十一 肯定網頁和查詢的相關性

  • tf-idf 詞頻/逆文本頻率指數
  • 關鍵詞機率分佈的交叉熵

十二 有限狀態機和動態規劃

  • 地址識別
  • 基於機率的有限狀態機
  • 離散的馬爾可夫鏈

十三 阿米特辛格

  • 簡單有效

十四 餘弦定理和新聞分類

  • 新聞的特徵向量 關鍵詞的tfidf
  • 新聞類似性度量 餘弦定理 夾角
  • 新聞的分類 聚類

十五 矩陣運算和文本處理分類問題

  • 矩陣的奇異值分解 同時完成關鍵詞分類和文章分類
  • 奇異值分解的並行算法

十六 信息指紋及其應用

  • 哈希存儲
  • 斷定集合相同 和基本相同 垃圾郵件識別
  • 網頁比對
  • 類似哈希
  • 視頻關鍵幀比對

十七 密碼學的數學原理

  • 均勻分佈 統計獨立
  • 公開密鑰 大素數

十八 搜索引擎反做弊問題

  • 噪聲清除 抗抗干擾
  • 餘弦定理判別網站的出鏈向量
  • 圖論識別互相連接的clique

十九 數學模型的重要性

  • 形式簡單
  • 數據積累
  • 不要亂打補丁修正

二十 最大熵模型

  • 保留所有不肯定性,風險降到最低
  • 機率分佈的信息熵最大
  • 完美用於詞性標註 句法分析
  • 訓練方法:通用迭代算法gis 改進迭代算法iis 吳軍的改進

二十一 拼音輸入法的數學原理

  • 漢字的信息熵 上下文相關性
  • 語言模型解決一音多字
  • 拼音轉漢字 隱性馬爾可夫模型 有限狀態機

教父馬庫斯

  • ldc語料庫
  • 柯林斯的天然語言文法分析器

二十三 布隆過濾器

  • 二進制向量加隨機映射函數
  • 快速 省空間
  • 有誤判機率
  • 用於垃圾郵件識別

二十四 貝葉斯網絡

  • 馬爾可夫鏈的擴展
  • np完備問題
  • 訓練
  • 主題詞分類
  • rephil

二十五 條件隨機場和句法分析

  • 拉納帕提 括括號 句法分析
  • 條件隨機場 擴展的隱含馬爾可夫模型 考慮上下文
  • 利用邊緣分佈來訓練模型
  • 淺層句法分析

二十六 維特比算法

  • 動態規劃算法
  • 最短路徑問題
  • 海蒂 拉瑪爾 cdma
  • 高通創始人

二十七 文本自動分類問題 指望最大化算法

  • 應用聚類算法
  • em算法 指望值計算 最大化過程
  • 局部最優解

二十八 邏輯迴歸和搜索廣告

  • 推送最有可能點擊的廣告,而非出價最高
  • 邏輯迴歸模型
  • 一層神經網絡
  • 預估點擊率

二十九 GOOGEL雲計算

  • MapReduce
相關文章
相關標籤/搜索