Python機器學習筆記:不得不瞭解的機器學習面試知識點(1)

  機器學習崗位的面試中一般會對一些常見的機器學習算法和思想進行提問,在平時的學習過程當中可能對算法的理論,注意點,區別會有必定的認識,可是這些知識可能不繫統,在回答的時候未必能在短期內答出本身的認識,所以將機器學習中常見的原理性問題記錄下來,保持對各個機器學習算法原理和特色的熟練度。html

  本文總結了機器學習一些面試題和筆試題,以便本身學習,固然了也爲了方便你們,題目是網上找的額,若是有侵權請聯繫小編,還有,不喜勿噴,謝謝!!!面試

  後一篇筆記: Python機器學習筆記:不得不瞭解的機器學習知識點(2)算法

算法分類

  下面圖片是借用網友作的,很好的總結了機器學習的算法分類:數據庫

 

問答題

問1:協方差和相關性有什麼區別?

  答:相關性是協方差的標準化格式。協方差自己很難作比較。例如:若是咱們計算工資(¥)和年齡(歲)的協方差,由於這兩個變量有不一樣的度量,因此咱們會獲得不能作比較的不一樣的協方差。爲了解決這個問題,咱們計算相關性來獲得一個介於-1和1之間的值,就能夠忽略它們各自不一樣的度量。編程

問2:你認爲把分類變量當成連續型變量會獲得一個更好的預測模型嗎?

  答:爲了獲得更好的預測,只有在分類變量在本質上是有序的狀況下才能夠被當作連續型變量來處理。瀏覽器

問3:「買了這個的客戶,也買了.....」亞馬遜的建議是那種算法的結果?

   答:這種推薦引擎的基本想法來源於協同過濾。協同過濾算法考慮用於推薦項目的「用戶行爲」。他們利用的是其餘用戶的購物行爲和針對商品的交易歷史記錄,評分,選擇和購物信息。針對商品的其餘用戶的行爲和偏好用來推薦項目(商品)給新用戶。在這中狀況下,項目(商品)的特徵是未知的。網絡

問4:在K-means或者KNN,咱們是用歐氏距離來計算最近的鄰居之間的距離,爲何不用曼哈頓距離?

  答:咱們不用曼哈頓距離,由於它只計算水平或者垂直距離,有維度的限制。另外一方面,歐氏距離能夠用於任何空間的距離計算問題。由於,數據點能夠存在於任何空間,歐式距離是更可行的選擇。例如:想象一下國際象棋棋盤,象或者車全部的移動的由曼哈頓距離計算的,由於他們是在各自的水平和垂直方向作的運動。數據結構

問5:爲何樸素貝葉斯如此「樸素」?

  答:由於它假定全部的特徵在數據集中的做用是一樣重要和獨立的。正如咱們所知,這個假設在現實世界中是很不真實的,所以說樸素貝葉斯真的很「樸素」。app

 問6:咱們知道校訂R2或者F值是用來評估線性迴歸模型的,那麼用什麼來評估邏輯迴歸模型?

  答:咱們可使用如下方法:框架

  1,因爲邏輯迴歸是用來預測機率的,咱們能夠用AUC-ROC曲線以及混淆矩陣來肯定其性能。

  2,此外,在邏輯迴歸中相似於校訂R2 的指標是AIC。AIC是對模型係數數量懲罰模型的擬合度量。所以,咱們更偏心有最小的AIC的模型。

  3,空誤差指的是隻有截距項的模型預測的響應。數值越低,模型越好。殘餘誤差表示由添加自變量的模型預測的響應。數值越低,模型越好。

問7:真陽性率和召回有什麼關係?寫出方程式。

  答:真陽性率 == 召回  他們有共同的公式(TP/(TP+FN))

問8:你是怎麼理解誤差方差的平衡的?

  答:從數學的角度來看,任何模型出現的偏差能夠分爲三個部分。分別是:

  誤差偏差在量化平均水平之上,預測值跟實際值相差多遠時有用。高誤差偏差意味着咱們的模型表現不太好,由於沒有抓到重要的趨勢。而另外一方面,方差量化了在同一個觀察上進行的預測是如何彼此不一樣的。高方差模型會過分擬合你的訓練集,而在訓練集之外的數據上表現不好。

問9:給你一個有1000列和1百萬行的訓練數據集,這個數據集是基於分類問題的。經理要求你來下降該數據集的維度以減小模型計算時間,可是你的機器內存有限,你會怎麼作?(你能夠自由作各類實際操做假設。)

  答:你的面試官應該很是瞭解很難在有限的內存上處理高緯的數據,如下是你可使用到的方法:

  1,因爲咱們的RAM很小,首先要關閉機器上正在運行的其餘程序,包括網頁瀏覽器等,以確保大部份內存可使用。

  2,咱們能夠隨機採樣數據集。這意味着,咱們能夠建立一個較小的數據集,好比有1000個變量和30萬行,而後作計算。

  3,爲了下降維度,咱們能夠吧數值變量和分類變量分開,同時刪掉相關聯的變量,對於數據變量,咱們將使用相關性分析;對於分類變量,咱們能夠用卡方檢驗。

  4,另外,咱們還可使用PAC,並挑選能夠解釋在數據集中有最大誤差的成分。

  5,利用在線學習算法,如VowpalWabbit(在Python中可用)是一個不錯的選擇。

  6,利用Stochastic GradientDescent(隨機梯度降低法)創建線性模型也頗有幫助。

  7,咱們也能夠用咱們對業務的理解來估計個預測變量對響應變量的影響的大小。可是,這是一個主觀的方法,若是沒有找到有用的預測變量可能會致使信息的顯著丟失。

問10:全球平均溫度的上升致使世界各地的海盜數量減小,這是否意味着海盜的數量減小引發氣候變化?

  答:不可以這樣說,這是一個「因果關係和相關性」的經典案例。全球平均溫度和海盜數量之間有可能有相關性,但基於這些信息,咱們不能說由於全球平均氣溫的上升而致使了海盜的消失。咱們不能判定海盜的數量減小是引發氣候變化的緣由,由於可能有其餘因素(潛伏或混雜因素)影響這一現象。

問11:給你一個數據集,這個數據集有缺失值,且這些缺失值分佈在高中值有1一個標準誤差的的範圍內,百分之多少的數據不會受到影響?爲何?

  答:大約有32%的數據將不會受到缺失值的影響。由於,因爲數據分佈在中位數附近,讓咱們先假設這是一個正態分佈。咱們知道,在一個正態分佈中,約有68%的數據位於跟平均值(或者衆數,中位數)1個標準差範圍內,那麼剩下的約32%的數據是不受影響的。所以,約有32%的數據將不受缺失值的影響。

問12:有監督學習和無監督學習的區別

  有監督學習:對具備標記的訓練樣本進行學習,以儘量對訓練樣本集外的數據進行分類預測。(LR,SVM,BP,RF,GBDT)

  無監督學習:對未標記的樣本進行訓練學習,比發現這些樣本中的結構知識。(KMeans,DL)

問13:正則化

  答:正則化是針對過擬合而提出的,覺得在求解模型最優的是通常優化最小的經驗風險,如今在該經驗風險上加上模型複雜度這一項(正則化項是模型參數向量的範數),並使用一個rate比率來權衡模型複雜度比以往經驗風險的權重,若是模型複雜度越高,結構化的經驗風險會越大,如今的目標就變爲告終構經驗風險的最優化,能夠防止模型訓練過分複雜,有效的下降過擬合的風險。

  奧卡姆剃刀原理:可以很好的解釋已知數據而且十分簡單纔是最好的模型。

問14:線程分類器與非線性分類器的區別以及優劣

  答:若是模型是參數的線性函數,而且存在線性分類面,那麼就是線性分類器,負責不是。  經常使用的線性分類器有:LR ,貝葉斯分類,單層感知器,線性迴歸

  常見的非線性分類器:決策樹,RF,GBDT,多層感知機

  SVM兩種都有(看線性核仍是高斯核)

  線性分類器速度快,編程方便,可是可能擬合效果不會很好

  非線性分類器編程複雜,可是效果擬合能力強

問15:介紹卷積神經網絡,和 DBN 有什麼區別?

  卷積神經網絡的特色是卷積核,CNN中使用了權共享,經過不斷的上採用和卷積獲得不一樣的特徵表示,採樣層又稱爲pooling層,基於局部相關性原理進行亞採樣,在減小數據量的同時保持有用的信息。DBN是深度信念網絡,每一層是一個RBM,整個網絡能夠視爲RBM堆疊獲得,一般使用無監督逐層訓練,從第一層開始,每一層利用上一層的輸入進行訓練,等各層訓練結束以後再利用BP算法對整個網絡進行訓練。

問16:採用 EM 算法求解的模型有哪些,爲何不用牛頓法或梯度降低法?

  用EM算法求解的模型通常有GMM或者協同過濾,k-means其實也屬於EM。EM算法必定會收斂,可是可能收斂到局部最優。因爲求和的項數將隨着隱變量的數目指數上升,會給梯度計算帶來麻煩。

問17:用 EM 算法推導解釋 Kmeans。

  k-means算法是高斯混合聚類在混合成分方差相等,且每一個樣本僅指派一個混合成分時候的特例。注意k-means在運行以前須要進行歸一化處理,否則可能會由於樣本在某些維度上過大致使距離計算失效。k-means中每一個樣本所屬的類就能夠當作是一個隱變量,在E步中,咱們固定每一個類的中心,經過對每個樣本選擇最近的類優化目標函數,在M步,從新更新每一個類的中心點,該步驟能夠經過對目標函數求導實現,最終可得新的類中心就是類中樣本的均值。

問18:用過哪些聚類算法,解釋密度聚類算法。

  k-means算法,聚類性能的度量通常分爲兩類,一類是聚類結果與某個參考模型比較(外部指標),另外是直接考察聚類結果(內部指標)。後者一般有DB指數和DI,DB指數是對每一個類,找出類內平均距離/類間中心距離最大的類,而後計算上述值,並對全部的類求和,越小越好。相似k-means的算法僅在類中數據構成簇的狀況下表現較好,密度聚類算法從樣本密度的角度考察樣本之間的可鏈接性,並基於可鏈接樣本不斷擴展聚類蔟獲得最終結果。

  DBSCAN(density-based spatial clustering of applications with noise)是一種著名的密度聚類算法,基於一組鄰域參數進行刻畫,包括鄰域,核心對象(鄰域內至少包含個對象),密度直達(j由i密度直達,表示j在i的鄰域內,且i是一個核心對象),密度可達(j由i密度可達,存在樣本序列使得每一對都密度直達),密度相連(xi,xj存在k,i,j均有k可達),先找出樣本中全部的核心對象,而後以任一核心對象做爲出發點,找出由其密度可達的樣本生成聚類蔟,直到全部核心對象被訪問過爲止。

問19:聚類算法中的距離度量有哪些?

  聚類算法中的距離度量通常用閩科夫斯基距離,在p取不一樣的值下對應不一樣的距離,例如p=1的時候對應曼哈頓距離,p=2的狀況下對應歐式距離,p=inf的狀況下變爲切比雪夫距離,還有jaccard距離,冪距離(閩科夫斯基的更通常形式),餘弦類似度,加權的距離,馬氏距離(相似加權)做爲距離度量須要知足非負性,同一性,對稱性和直遞性,閩科夫斯基在p>=1的時候知足讀來那個性質,對於一些離散屬性例如{飛機,火車,輪船}則不能直接在屬性值上計算距離,這些稱爲無序屬性,能夠用VDM(Value Diffrence Metrix),屬性u上兩個離散值a,b之間的VDM距離定義爲

  其中表示在第i個簇中屬性u上a的樣本數,樣本空間中不一樣屬性的重要性不一樣的時候能夠採用加權距離,通常若是認爲全部屬性重要性相同則要對特徵進行歸一化。通常來講距離須要的是類似性度量,距離越大,類似度越小,用於類似性度量的距離未必必定要知足距離度量的全部性質,例如直遞性。好比人馬和人,人馬和馬的距離較近,而後人和馬的距離可能就很遠。

問20:解釋貝葉斯公式和樸素貝葉斯分類。

  貝葉斯公式

 

最小化分類錯誤的貝葉斯最優分類器等價於最大化後驗機率。

  基於貝葉斯公式來估計後驗機率的主要困難在於,條件機率是全部屬性上的聯合機率,難以從有限的訓練樣本直接估計獲得。樸素貝葉斯分類器採用了屬性條件獨立性假設,對於已知的類別,假設全部屬性相互獨立。這樣,樸素貝葉斯分類則定義爲

           

  若是有足夠多的獨立同分布樣本,那麼能夠根據每一個類中的樣本數量直接估計出來。在離散狀況下先驗機率能夠利用樣本數量估計或者離散狀況下根據假設的機率密度函數進行最大似然估計。樸素貝葉斯能夠用於同時包含連續變量和離散變量的狀況。若是直接基於出現的次數進行估計,會出現一項爲0而乘積爲0的狀況,因此通常會用一些平滑的方法,例如拉普拉斯修正,

問21:TF-IDF是什麼?

  TF指Term frequecy,表明詞頻,IDF表明inverse document frequency,叫作逆文檔頻率,這個算法能夠用來提取文檔的關鍵詞,首先通常認爲在文章中出現次數較多的詞是關鍵詞,詞頻就表明了這一項,然而有些詞是停用詞,例如的,是,有這種大量出現的詞,首先須要進行過濾,好比過濾以後再統計詞頻出現了中國,蜜蜂,養殖且三個詞的詞頻幾乎一致,可是中國這個詞出如今其餘文章的機率比其餘兩個詞要高很多,所以咱們應該認爲後兩個詞更能表現文章的主題,IDF就表明了這樣的信息,計算該值須要一個語料庫,若是一個詞在語料庫中出現的機率越小,那麼該詞的IDF應該越大,通常來講TF計算公式爲(某個詞在文章中出現次數/文章的總詞數),這樣消除長文章中詞出現次數多的影響,IDF計算公式爲log(語料庫文章總數/(包含該詞的文章數)+1)。將二者乘乘起來就獲得了詞的TF-IDF。傳統的TF-IDF對詞出現的位置沒有進行考慮,能夠針對不一樣位置賦予不一樣的權重進行修正,注意這些修正之因此是有效的,正是由於人觀測過了大量的信息,所以建議了一個先驗估計,人將這個先驗估計融合到了算法裏面,因此使算法更加的有效。

問22:文本中的餘弦距離是什麼,有哪些做用?

  餘弦距離是兩個向量的距離的一種度量方式,其值在-1~1之間,若是爲1表示兩個向量同相,0表示兩個向量正交,-1表示兩個向量反向。使用TF-IDF和餘弦距離能夠尋找內容類似的文章,例如首先用TF-IDF找出兩篇文章的關鍵詞,而後每一個文章分別取出k個關鍵詞(10-20個),統計這些關鍵詞的詞頻,生成兩篇文章的詞頻向量,而後用餘弦距離計算其類似度。

簡答題

1.什麼是機器學習

    簡單的說,機器學習就是讓機器從數據中學習,進而獲得一個更加符合現實規律的模型,
經過對模型的使用使得機器比以往表現的更好,這就是機器學習。

對上面這句話的理解:

數據:從現實生活抽象出來的一些事物或者規律的特徵進行數字化獲得。

學習:在數據的基礎上讓機器重複執行一套特定的步驟(學習算法)進行事物特徵的萃取,
    獲得一個更加逼近於現實的描述(這個描述是一個模型它的自己可能就是一個函數)。我
    們把大概可以描述現實的這個函數稱做咱們學到的模型。

更好:咱們經過對模型的使用就能更好的解釋世界,解決與模型相關的問題。

 

2.機器學習與數據挖掘的區別

    數據挖掘和機器學習的區別和聯繫,周志華有一篇很好的論述《機器學習和
數據挖掘》能夠幫助你們理解。
   數據挖掘受到不少學科領域的影響,其中數據庫、機器學習、統計學無疑影響
最大。簡言之,對數據挖掘而言,數據庫提供數據管理技術,機器學習和統計學
提供數據分析技術。

   因爲統計學每每醉心於理論的優美而忽視實際的效用,所以,統計學界提供的
不少技術一般都要在機器學習界進一步研究,變成有效的機器學習算法以後才能
再進入數據挖掘領域。從這個意義上說,統計學主要是經過機器學習來對數據挖
掘發揮影響,而機器學習和數據庫則是數據挖掘的兩大支撐技術。

    從數據分析的角度來看,絕大多數數據挖掘技術都來自機器學習領域,但機器
學習研究每每並不把海量數據做爲處理對象,所以,數據挖掘要對算法進行改造,
使得算法性能和空間佔用達到實用的地步。同時,數據挖掘還有自身獨特的內容,
即關聯分析。

    而模式識別和機器學習的關係是什麼呢,傳統的模式識別的方法通常分爲兩種:
統計方法和句法方法。句法分析通常是不可學習的,而統計分析則是發展了很多機
器學習的方法。也就是說,機器學習一樣是給模式識別提供了數據分析技術。

   至於,數據挖掘和模式識別,那麼從其概念上來區分吧,數據挖掘重在發現知識,
模式識別重在認識事物。

   機器學習的目的是建模隱藏的數據結構,而後作識別、預測、分類等。所以,機器
學習是方法,模式識別是目的。

   總結一下吧。只要跟決策有關係的都能叫 AI(人工智能),因此說 PR(模式識別)、
DM(數據挖掘)、IR(信息檢索) 屬於 AI 的具 體應用應該沒有問題。 研究的東西則
不太同樣, ML(機器學習) 強調自我完善的過程。 Anyway,這些學科都是相通的。

 

3.什麼是機器學習的過分擬合現象

  若是一味的去提升訓練數據的預測能力,所選模型的複雜度每每會很高,這種現象稱爲過擬合,所表現的就是模型訓練時候的偏差很小,但在測試的時候偏差很大。

    指在模型參數擬合過程當中的問題,因爲訓練數據包含抽樣偏差,訓練時,
複雜的模型將抽樣偏差也考慮在內,將抽樣偏差也進行了很好的擬合。具體表
現就是訓練集上效果好,在測試集上效果差。模型泛化能力弱。

 

4.過分擬合產生的緣由

過擬合的第一個緣由,就是建模樣本抽取錯誤,包括(但不限於)樣本數量太少,
    抽樣方法錯誤,抽樣時沒有足夠正確考慮業務場景或業務特色,等等致使抽出
    的樣本數據不能有效足夠表明業務邏輯或業務場景;

過擬合的第二個緣由,就是樣本里的噪音數據干擾過大,大到模型過度記住了噪音
    特徵,反而忽略了真實的輸入輸出間的關係;

過擬合的第三個緣由,就是在決策樹模型搭建中,若是咱們對於決策樹的生長沒有
    合理的限制和修剪的話,決策樹的自由生長有可能每片葉子裏只包含單純的事件
    數據(event)或非事件數據(no event),能夠想象,這種決策樹固然能夠完
    美匹配(擬合)訓練數據,可是一旦應用到新的業務真實數據時,效果是一塌糊塗。

過擬合的第四個緣由,就是建模時的「邏輯假設」到了模型應用時已經不能成立了。任
    何預測模型都是在假設的基礎上才能夠搭建和應用的,經常使用的假設包括:假設歷
    史數據能夠推測將來,假設業務環節沒有發生顯著變化,假設建模數據與後來的
    應用數據是類似的,等等。若是上述假設違反了業務場景的話,根據這些假設搭
    建的模型固然是沒法有效應用的。

過擬合的第五個緣由,就是建模時使用了太多的輸入變量,這跟上面第二點(噪音數據)
    有些相似,數據挖掘新人經常犯這個錯誤,本身不作分析判斷,把全部的變量交給
    軟件或者機器去「撞大運」。須知,一個穩定優良的模型必定要遵循建模輸入變量「
    少而精」的原則的。

上面的緣由都是現象,可是其本質只有一個,那就是「業務理解錯誤形成的」,不管是抽樣,
    仍是噪音,仍是決策樹,神經網絡等等,若是咱們對於業務背景和業務知識很是瞭解,
    很是透徹的話,必定是能夠避免絕大多數過擬合現象產生的。由於在模型從肯定需求,
    到思路討論,到搭建,到業務應用驗證,各個環節都是能夠用業務敏感來防止過擬合
    於未然的。

 

5.如何避免過分擬合

  當你使用較小的數據集進行機器學習時,容易產生過分擬合,所以使用較大的數據量能避免過分擬合現象。可是當你不得不使用小型數據集進行建模時候,可使用被稱爲交叉驗證的技術。在這種方法中數據集被分爲兩節,測試和訓練數據集,測試數據集只測試模型,而在訓練數據集中,數據點被用來建模。

  在該技術中,一個模型一般是被給定有先驗知識的數據集(訓練數據集)進行訓練,沒有先驗知識的數據集進行測試,交叉驗證的思想是:在訓練階段,定義一個數據集用來測試模型。

1. dropout:訓練神經網絡模型時,若是訓練樣本較少,爲了防止模型過擬合,
    Dropout能夠做爲一種trikc供選擇。

2. early stop結合cross validation使用。

3. 儘量的擴大 training dataset,增長訓練集的全面性和數量

 

6.什麼是感應式的機器學習?

    感應機器學習涉及由實踐進行學習的過程,能從一組可觀測到的例子的嘗試推導出廣泛性規則

 

7.什麼是機器學習的五個流行的算法?

    1,決策樹
    2,神經網絡
    3,機率網絡
    4,最鄰近法
    5,支持向量機

 

8.機器學習有哪些不一樣的算法技術?

    在機器學習中不一樣類型的算法技術是:
    1,監督學習     2,非監督學習
    3,半監督學習   4,轉導推理(Transduction)
    5, 學習推理(Learning  to Learn)

 

9.在機器學習中,創建假設或者模型的三個階段指的是什麼?

    1,建模
    2,模型測試
    3,模型應用

 

10.什麼是監督學習的標準方法?

    監督學習的標準方法是將一組示例數據的分紅訓練數據集和測試數據集

 

11.什麼是訓練數據集和測試數據集?

    在相似於機器學習的各個信息科學相關領域中,一組數據被用來發現潛在的預測關係,
稱爲「訓練數據集」。訓練數據集是提供給學習者的案例,而試驗數據集是用於測試由學習
者提出的假設關係的準確度。

 

12.下面列出機器學習的各類方法?

機器學習的各類方法以下「

1.概念與分類學習(Concept Vs Classification Learning)。

2.符號與統計學習(Symbolic Vs Statistical Learning)。

3.概括與分析學習(Inductive Vs Analytical Learning)。

 

13.非機器學習有哪些類型?

人工智能    規則推理

 

14.什麼是非監督學習的功能?

    1.求數據的集羣
    2. 求出數據的低維表達
    3. 查找數據有趣的方向
    4. 有趣的座標和相關性
    5.發現顯著的觀測值和數據集清理

 

15.什麼是監督學習的功能?

1.分類      2.語音識別     3.迴歸     4.時間序列預測     5. 註釋字符串

 

16.什麼是算法獨立的機器學習?

    機器學習在基礎數學領域獨立於任何特定分類器或者學習算法,被稱爲算法獨立的機器學習。

 

17.人工智能與機器學習的區別?

    基於經驗數據的特性而設計和開發的算法被稱爲機器學習。而人工智能不但包
括機器學習,還包括諸如知識表示,天然語言處理,規劃,機器人技術等其它方法。

 

18.在機器學習中分類器指的是什麼?

    在機器學習中,分類器是指輸入離散或連續特徵值的向量,並輸出單個離散值或者類型的系統。

 

19.樸素貝葉斯方法的優點是什麼?

    樸素貝葉斯分類器將會比判別模型,譬如邏輯迴歸收斂得更快,所以你只須要
更少的訓練數據。其主要缺點是它學習不了特徵間的交互關係。

 

20.在哪些領域使用模式識別技術?

模式識別被應用在:

1計算機視覺  2.語言識別   3.統計   4.數據挖掘   5. 非正式檢索   6. 生物信息學。 

 

21.什麼是遺傳編程?

    遺傳編程的機器學習中兩種經常使用的方法之一。該模型是基於測試,並在一系列的
結果當中,獲取最佳選擇。

 

22.在機器學習中概括邏輯程序設計是指什麼?

    概括邏輯程序設計(ILP)是利用邏輯程序設計表達的背景知識和實例,它是機器學習的一個分支。

 

23.在機器學習中,模型的選擇是指?

    在不一樣的數學模型中,選擇用於描述相同的數據集的模型的過程被稱爲模型選擇。
模型選擇被應用於統計,機器學習和數據挖掘的等相關領域。 

 24.用於監督學習校準兩種方法是什麼?

在監督學習中,用於預測良好幾率的兩種方法是:

1,普拉特校準     2, 保序迴歸。 
這些方法被設計爲二元分類,並且有意義的。 

 

25. 什麼方法一般用於防止過擬合?

    當有足夠的數據進行等滲迴歸時,這一般被用來防止過擬合問題。

 

26.規則學習的啓發式方法和決策樹的啓發式方法之間的區別是什麼?

    決策樹的啓發式方法評價的是一系列不相交的集合的平均質量;然而規則學習的
啓發式方法僅僅評價在候選規則覆蓋下的實例集。

 

27.什麼是感知機器學習?

    在機器學習,感知器是一種輸入到幾個可能的非二進制輸出的監督分類算法。

 

28.貝葉斯邏輯程序的兩個組成部分是什麼?

    貝葉斯邏輯程序由兩部分組成。第一成分由一組貝葉斯條款組成,能捕捉特定
域的定性結構。第二組分是定量的,它能對域的量化信息進行編碼。

 

29.什麼是貝葉斯網絡?

貝葉斯網絡是用來表示一組變量之間爲機率關係的圖像模型。

 

30.爲何基於實例的學習算法有時也被稱爲懶惰學習算法?

    基於實例的學習算法也被稱爲懶惰學習算法,由於它們延緩誘導或泛化過程,直到分類完成。

 

31.支持向量機能處理哪兩種分類方法?

1.結合二分類法

2. 修改二進制歸入多類學習法。

 

32.什麼是集成學習?

    爲了解決特定的計算程序,如分類器或專家知識等多種模式,進行戰略性生產
和組合。這個過程被稱爲集成學習。

 

33.爲何集成學習被應用?

    集成學習能提升模型的分類,預測,函數逼近等方面的精度。

 

34.什麼使用集成學習?

    當你構建一個更準確,相互獨立的分類器時,使用集成學習。

 

35.什麼是集成方法的兩種範式?

集成方法的兩種範式是:

1. 連續集成方法
2. 並行集成方法。 

 

36.什麼是集成方法的通常原則,在集成方法中套袋(bagging)和爆發(boosting)指的是什麼?

    集成方法的通常原則是要結合定的學習算法多種預測模型,相對於單一模型,
其有更強的健壯性。套袋是一種能提升易變的預測或分類方案集成方法。爆發方
法被依次用來減小組合模型的誤差。爆發和裝袋均可以經過下降方差減小偏差。

 

37.什麼是集成方法分類錯誤的偏置方差分解?

    學習算法的指望偏差能夠分解爲誤差和方差。偏置項衡量由學習方法產生的平
均分類器與目標函數是否匹配。

 

38.在集成方法中什麼是增量合成方法?

    增量學習方法是一種重新數據進行學習,並能應用於後續由現有的數據集生成的分類器的算法。

 

39.PCA,KPCA和ICE如何使用?

    PCA(主成分分析),KPCA(基於內核主成分分析)和ICA(獨立成分分析)是用
於降維的重要特徵提取技術。

 

40.在機器學習中降維是什麼意思?

    在機器學習和統計應用中,降維是指在計算時減小隨機變量數目的處理過程,並
且能夠分爲特徵選擇和特徵提取。

 

41.什麼是支持向量機?

    支持向量機是一種監督學習算法,適用於分類和迴歸分析。

 

42.關係評價技術的組成部分是什麼?

    關係評價技術的重要組成部分以下:

    1.數據採集2. 地面實況採集3. 交叉驗證技術4. 查詢類型5. 評分標準6. 顯着性檢驗。

 

43.連續監督學習有什麼不一樣方法?

    連續監督學習問題的不一樣解決辦法以下:

    1.滑動窗口方法
    2. 複發性推拉窗
    3. 隱藏馬爾科夫模型
    4. 最大熵馬爾科夫模型
    5. 條件隨機域
    6. 圖變換網絡

 

44.在機器人技術和信息處理技術的哪些方面會相繼出現預測問題?

    在機器人技術和信息處理技術中,相繼出現預測問題的是:

    1.模仿學習    2. 結構預測    3. 基於模型的強化學習

 

45.什麼是批量統計學習?

    統計學習技術容許根據一組觀察到的數據進行學習功能和預測,這能夠對沒法觀
察和未知的數據進行預測。這些技術提供的學習預測器對將來未知數據的預測提供性能保證。

 

46什麼是PAC學習?

    可能近似正確模型 (PAC) 學習是一個已經被引入到分析學習算法和統計效率的學習框架。

 

47有哪些不一樣的類別能夠分爲序列學習過程?

    1.序列預測    2. 序列生成    3. 序列識別    4. 順序決定.

 

48什麼是序列學習?

    序列學習是一種以合乎邏輯的方式進行教學和學習的方法。

 

49.機器學習的兩種技術是什麼?

    機器學習的兩種技術是: 
    1.遺傳編程
    2.概括學習

 

50.你在平常工做中看到的機器學習的一個流行應用是什麼?

    各大電商網站上已部署好的推薦引擎使用的是機器學習。

 

https://max.book118.com/html/2018/0702/5114220014001301.shtm
相關文章
相關標籤/搜索