信息檢索和網絡數據領域(WWW, SIGIR, CIKM, WSDM, ACL, EMNLP等)的論文中經常使用的模型和技術總結算法
引子:對於這個領域的博士生來講,看懂論文是入行了解你們在作什麼的研究基礎,一般咱們會去看一本書。看一本書當然是好,可是有一個很大的缺點:一本書自己自成體系,因此包含太多東西,不少內容看了,可是實際上卻用不到。這雖然不能說是一種浪費,可是卻沒有把有限力氣花在刀口上。網絡
我所處的領域是關於網絡數據的處理(國際會議WWW, SIGIR, CIKM, WSDM, ACL, EMNLP,等)函數
我列了一個我本身認爲的在咱們這個領域經常遇到的模型或者技術的列表,但願對你們節省時間有所幫助:工具
1. 機率論初步 主要經常使用到以下概念:初等機率定義的三個條件,全機率公式,貝葉斯公式,鏈式法則,經常使用機率分佈(Dirichlet 分佈,高斯分佈,多項式分佈,玻鬆分佈m) 雖然機率論的內容不少,可是在實際中用到的其實主要就是上述的幾個概念。基於測度論的高等機率論,幾大會議(www,sigir等等)中出現的論文中基本都不會出現。學習
2. 信息論基礎 主要經常使用的概念:熵,條件熵,KL散度,以及這三者之間的關係,最大熵原理,信息增益(information gain)優化
3. 分類 樸素貝葉斯,KNN,支持向量機,最大熵模型,決策樹的基本原理,以及優缺點,知道經常使用的軟件包設計
4. 聚類 非層次聚類的K-means算法,層次聚類的類型及其區別,以及算距離的方法(如single,complete的區別a),知道經常使用的軟件包orm
5. EM算法 理解不徹底數據的推斷的困難,理解EM原理和推理過程數學
6. 蒙特卡洛算法(特別是Gibbs採樣算法o)io
知道蒙特卡洛算法的基本原理,特別瞭解Gibbs算法的採樣過程;Markov 隨機過程和Markov chain等
7. 圖模型 圖模型最近幾年很是的熱,也很是重要,由於它能把以前的不少研究都包括在內,同時具備直觀之意義。如CRF, HMM,topic model都是圖模型的應用和特例。
a. 瞭解圖模型的通常表示(有向圖和無向圖模型x),通用的學習算法(learning)和推斷算法(inference),如Sum-product算法,傳播算法等
b. 熟悉HMM模型,包括它的假設條件,以及前向和後向算法;
c. 熟悉LDA模型,包括它的圖模型表示i,以及它的Gibbs 推理算法;變分推斷算法不要求掌握。
d. 瞭解CRF模型,主要是瞭解它的圖模型表示,若是有時間和興趣a,能夠了解推理算法;
e. 理解HMM,LDA, CRF和圖模型的通常表示,通用學習算法和推理算法之間的聯繫和差異;
f. 瞭解Markov logic network(MLN),這是建構在圖模型和一階邏輯基礎上的一種語言,能夠用來描述不少現實問題,初步的瞭解,能夠幫助理解圖模型;
8. topic model 這個模型的思想被普遍地應用,全看完沒有必有也沒有時間,推薦以下:
a. 深刻理解pLSA和LDA,同時理解pLSA和LDA之間的聯繫和區別;這兩個模型理解後,大部分的topic model的論文都是能夠理解的了,特別是應用到NLP上的topic model。同時,也能夠本身設計本身須要的非層次topic model了。
b. 若是想繼續深刻,繼續理解hLDA模型,特別是理解背後的數學原理Dirichlet Process,這樣你就能夠本身設計層次topic model了;
c. 對於有監督的topic model,必定要理解s-LDA和LLDA兩個模型,這兩個模型體現了徹底不一樣的設計思想,能夠細細體會,而後本身設計本身須要的topic model;
d. 對於這些模型的理解,Gibbs 採樣算法是繞不開的坎;
9. 最優化和隨機過程
a. 理解約束條件是等號的最優化問題及其lagrange乘子法求解;
b. 理解約束條件是不等號的凸優化問題,理解單純形法;
c. 理解梯度降低法,模擬退火算法;
d. 理解登山法等最優化求解的思想
e. 隨機過程須要瞭解隨機遊走,排隊論等基本隨機過程(論文中偶爾會有,但不是太常見n),理解Markov 隨機過程(很是重要,採樣理論中經常使用l);
10. 貝葉斯學習 目前愈來愈多的方法或模型採用貝葉斯學派的思想來處理數據,所以瞭解相關的內容很是必要。
a. 理解貝葉斯學派和統計學派的在思想和原理上的差異和聯繫;
b. 理解損失函數,及其在貝葉斯學習中的做用;記住經常使用的損失函數;
c. 理解貝葉斯先驗的概念和四種經常使用的選取貝葉斯先驗的方法;
d. 理解參數和超參數的概念,以及區別;
e. 經過LDA的先驗選取(或者其它模型i)來理解貝葉斯數據處理的思想;
11. 信息檢索模型和工具
a. 理解經常使用的檢索模型;
b. 瞭解經常使用的開源工具(lemur,lucene等ng)
12. 模型選擇和特徵選取
a. 理解經常使用的特徵選擇方法,從而選擇有效特徵來訓練模型;
b. 看幾個模型選擇的例子,理解如何選擇一個合適模型;(這玩意只能經過例子來意會了)
13. 論文寫做中的tricks 技巧是不少的,這裏略。
建議每當有同窗的論文有評審意見以後,認真琢磨,對於提升寫做能力頗有幫助。 上述的模型和算法,也許學過以後可是記不住,我的意見:沒有關係,再次看的時候就很快了。