《數學之美》讀書筆記
數學之美
一,文字和語言 數字和信息
- 語言研究的兩種方向:語料,語法
- 猶太人抄聖經的校驗數
二 天然語言處理 從規則到統計
三 統計語言模型
- 一個句子是否合理,取決於其存在的可能性。
- 統計語言的二元模型
- 馬爾可夫鏈
- 高階語言模型
- 零機率問題:古德圖靈估計公式
四 談談中文分詞
- 查字典法
- 統計語言模型方法:分詞後句子出現的機率最大。
- 動態規劃 維特比譯碼
- 英文手寫體的識別
- 分詞的層次概念
五 隱含馬爾可夫模型
- 訓練算法(鮑姆-韋爾奇算法)
- 解碼算法(維特比算法)
- 天然語言處理、機器學習
六 信息的度量和做用
- 信息熵
- 條件熵 相關搜索
- 互信息 熵與條件熵的差別。解決詞義的二義性(亞讓斯基)
- 相對熵 衡量兩個正值函數的類似性,度量兩個隨機分佈的差別性,比較兩詞是否同義,比較文章是否同類,TF-IDF
七 賈里尼克和現代語言處理
八 布爾代數和搜索引擎的索引
- 用一個很長的二進制表示一個關鍵字是否出如今每篇文獻中。多個關鍵詞就是求與。
九 圖論和網絡爬蟲
- 廣度優先和深度優先。
- 優先級隊列
- 頁面分析 URL提取,模擬腳本
- hash記錄
十 pagerank
- 一個網頁的排名=全部指向這個網頁的其餘網頁的權重之和。
- 矩陣相乘,迭代。
- 稀疏矩陣。
十一 肯定網頁和查詢的相關性
- tf-idf 詞頻/逆文本頻率指數
- 關鍵詞機率分佈的交叉熵
十二 有限狀態機和動態規劃
十三 阿米特辛格
十四 餘弦定理和新聞分類
- 新聞的特徵向量 關鍵詞的tfidf
- 新聞類似性度量 餘弦定理 夾角
- 新聞的分類 聚類
十五 矩陣運算和文本處理分類問題
- 矩陣的奇異值分解 同時完成關鍵詞分類和文章分類
- 奇異值分解的並行算法
十六 信息指紋及其應用
- 哈希存儲
- 斷定集合相同 和基本相同 垃圾郵件識別
- 網頁比對
- 類似哈希
- 視頻關鍵幀比對
十七 密碼學的數學原理
十八 搜索引擎反做弊問題
- 噪聲清除 抗抗干擾
- 餘弦定理判別網站的出鏈向量
- 圖論識別互相連接的clique
十九 數學模型的重要性
二十 最大熵模型
- 保留所有不肯定性,風險降到最低
- 機率分佈的信息熵最大
- 完美用於詞性標註 句法分析
- 訓練方法:通用迭代算法gis 改進迭代算法iis 吳軍的改進
二十一 拼音輸入法的數學原理
- 漢字的信息熵 上下文相關性
- 語言模型解決一音多字
- 拼音轉漢字 隱性馬爾可夫模型 有限狀態機
教父馬庫斯
二十三 布隆過濾器
- 二進制向量加隨機映射函數
- 快速 省空間
- 有誤判機率
- 用於垃圾郵件識別
二十四 貝葉斯網絡
- 馬爾可夫鏈的擴展
- np完備問題
- 訓練
- 主題詞分類
- rephil
二十五 條件隨機場和句法分析
- 拉納帕提 括括號 句法分析
- 條件隨機場 擴展的隱含馬爾可夫模型 考慮上下文
- 利用邊緣分佈來訓練模型
- 淺層句法分析
二十六 維特比算法
- 動態規劃算法
- 最短路徑問題
- 海蒂 拉瑪爾 cdma
- 高通創始人
二十七 文本自動分類問題 指望最大化算法
- 應用聚類算法
- em算法 指望值計算 最大化過程
- 局部最優解
二十八 邏輯迴歸和搜索廣告
- 推送最有可能點擊的廣告,而非出價最高
- 邏輯迴歸模型
- 一層神經網絡
- 預估點擊率
二十九 GOOGEL雲計算
歡迎關注本站公眾號,獲取更多信息