1.LDA算法思想及工做流程,包括講講其中細節,如何抽取主題模型算法
(Linear Discriminant Analysis,LDA)線性判別分析,是模式識別經典算法,是在1996年由Belhumeur引入模式識別和人工智能領域的。基本思想是將高維的模式樣本投影到最佳鑑別矢量空間,以達到抽取分類信息和壓縮特徵空間維數的效果,投影后保證模式樣本在新的子空間有最大的類間距離和最小的類內距離,即模式在該空間中有最佳的可分離性。所以,它是一種有效的特徵抽取方法。網絡
模式識別是指表徵事物或現象的各類形式的(數值的、文字的和邏輯關係的)信息進行處理和分析,以對事物或現象進行描述、辨認、分類和解釋的過程,是信息科學和人工智能的重要組成部分。 模式識別分監督的分類和無監督的分誒。差異在於,各實驗樣本所屬的類別是否預先已知。框架
概念分佈式
特徵,特徵矢量函數
模式類:具備某些共同特性的模式合集。oop
模式識別例子學習
計算機自動診斷疾病:1.獲取狀況(信息採集)測量體溫、血壓、心率、血液化驗、X光透射、B超大數據
模式識別基本方法:搜索引擎
(1)統計模式識別:主要方法:線性、非線性分類、貝葉斯決策、聚類分析;理論基礎:機率論、數理統計人工智能
(2)句法模式識別:符號串、樹、圖;主要方法:自動機技術、CYK剖析算法、Early算法、轉移圖法;理論基礎:形式語言、自動機 (3)模糊模式識別:模式描述模式斷定,主要方法:模糊統計、二元對比排序法、推理法、模糊集運算規則、模糊矩陣;理論基礎:模糊數學 (4)人工神經網絡法:模式描述方法:模式斷定:BP模型、HOP模型、高階網;理論基礎:神經生理學、心理學 (5)邏輯推理法(人工智能法)主要方法:產生式推理、語義網推理、框架理論;;理論基礎:邏輯演繹、布爾代數;
1929:發明閱讀機,能閱讀0-9的數字; 30年代:Fisher提出統計分類理論,奠基了統計模式識別的基礎; 50年代:Noam提出形式語言理論——傅京孫提出句法/結構模式識別; 60年代:L.A提出模糊集理論,模糊識別方法得以發展; 80年代:以Hopfiled網絡、BP網爲表明的神經網絡模型致使人工神經元網絡復活,並在模式識別獲得較普遍的應用。 90年代:小樣本學習理論,支持向量機受到重視
2.PLSA算法思想
3.貝葉斯分類器如何工做
4.爲何貝葉斯計算要定義特徵之間是相互獨立的
5.K-means算法的原理和時間複雜度,這個算法通常要運行多少次才收斂
6.基於用戶的協同過濾算法如何計算用戶類似度,基於item的協同過濾算法如何計算item的類似度
7.如何處理大數據量的類似度計算
8.給出兩個查詢詞,如何經過搜索引擎獲得兩個詞的類似度,若是搜索引擎的搜索結果不可靠該用什麼方法計算,不考慮語義。
9.在微博博文裏如何計算兩篇博文的相關度
10.C++中虛函數的實現機制,編譯器都作了什麼
11.C++中inline和define的區別
12.C++中static的做用
13.給定一個文檔,找出在100w條文檔中與其類似度最大的50個文檔
14.Hadoop分佈式處理大數據時候,是否知道索引怎麼用?知道XXX索引麼?其中的原理是什麼?(根本聽不清XXX是啥,更談不上原理了)
15.給定1-100個數,從中挖出其中的兩個,如何找到這兩個值?
16.青蛙跳樓梯,一跳能夠一級也能夠兩級,問跳N級樓梯能夠有多少種跳法?
17.請問3個圓圈能在平面上獲得多少個空間?(不準畫,只許想,尼瑪LZ停頓了10s左右他就說不能畫出),後面問若是是4個呢?