機器學習---那些不得不說的概念

時間 2019-12-04

標籤機器學習那些不得不說概念简体版

原文原文鏈接

一、迴歸模型與分類模型有哪些相同點和異同點?算法

　　迴歸問題一般是用來預測一個值,是對真實值的一種逼近預測數組

　　分類問題是用於將事物打上一個標籤，一般結果爲離散值。分類並無逼近的概念，最終正確結果只有一個，錯誤的就是錯誤的數據結構

　　相同點：都屬於監督學習，都有特徵和標籤dom

二、pandas中loc iloc 區別？機器學習

　　loc 基於行標籤和列標籤名稱（x_label、y_label）進行取值，包含頭尾；模塊化

　　iloc 基於行索引和列索引（index，columns）取值，支持切片操做，包含頭不含尾。函數

三、k-means的參數有哪些？init 、 n-clusters 、最大迭代次數、n-init、課件020工具

　　# init='k-means++':初始聚類中心(儘量遠)，也是默認值性能

　　# init：有三個可選值：’k-means++’， ‘random’，或者傳遞一個ndarray向量。單元測試

　　# 此參數指定初始化方法，默認值爲 ‘k-means++’

　　# n_clusters：整形，缺省值=8 （生成的聚類數，即產生的質心（centroids）數）

　　# n_init：整形，缺省值=10 ，用不一樣的質心初始化值運行算法的次數，選出最優結果。

四、ROC曲線有哪4個點？四個點表明着什麼？

　　點(0,1)：即FPR=0, TPR=1，意味着FN＝0且FP＝0，將全部的樣本都正確分類。

　　點(1,0)：即FPR=1，TPR=0，最差分類器，避開了全部正確答案。

　　點(0,0)：即FPR=TPR=0，FP＝TP＝0，分類器把每一個實例都預測爲負類。

　　點(1,1)：分類器把每一個實例都預測爲正類。

　　總之：ROC曲線越接近左上角，該分類器的性能越好。並且通常來講，若是ROC是光滑的，那麼基本能夠判斷沒有太大的 overfitting

五、什麼是adboost

　　提高模型的效果，對決策樹而言，防止過擬合

　　強分類/迴歸器(可作迴歸和分類)

六、列舉五種數據預處理方法？

　　均值移除、範圍縮放、歸一化、二值化、獨熱編碼

七、列舉出兩種聚類算法？

　　① 層次聚類算法簡

　　② DBSCAN聚類算法

　　③ K-Means聚類算法

八、什麼是網格搜索，什麼是交叉驗證？

　　網格搜索：也叫窮舉搜索：在全部候選的參數選擇中，經過循環遍歷，嘗試每一種可能性，表現最好的參數就是最終的結果。其原理就像是在數組裏找最大值。

　　交叉驗證：就是重複的使用數據，把獲得的樣本數據進行切分，組合爲不一樣的訓練集和測試集，用訓練集來訓練模型，用測試集來評估模型預測的好壞。在此基礎上能夠獲得多組不一樣的訓練集和測試集，某次訓練集中的某樣本在下次可能成爲測試集中的樣本，即所謂「交叉」。目的是爲了讓模型評估更加準確可信

九、什麼是凝聚層次聚類？什麼是分裂層次聚類

　　層次聚類，顧名思義，就是一層一層的進行聚類。層次聚類算法有兩種：自下而上的算法和自上而下的算法。

　　凝聚層次聚類算法：在自下而上的算法中，剛開始每一個數據點（即每一個葉子）都被當作一個單獨的集羣，而後將這些集羣不斷的合併，直到全部的集羣都合併成一個巨型集羣，這種自下而上的合併算法也叫作凝聚層次聚類算法。

　　分裂層次聚類算法：在自上而下的算法中，剛開始全部的葉子被當作一個巨型集羣，而後對這個集羣進行不斷的分解，直到全部的集羣都變成一個個單獨的數據點，即巨型集羣被分解成單獨的葉子節點，這種自上而下的的分解算法也叫作分裂層次聚類算法。

十、解釋正陽性,假陰性,正陰性,假陽性.　　

　　TP 正陽性：預測爲正，實際也爲正

　　FP 假陽性：預測爲正，實際爲負

　　FN 假陰性：預測爲負，實際爲正

　　TN 真陰性：預測爲負，實際爲負

十一、解釋一下評分指標的基本概念，各類模型使用的評分指標

　　評價一個模型好壞的標準。

　　分類模型的評估指標：準確率（Accuracy）、精確率（Precision）、召回率（Recall）、 F1值（F1-Measure）、混淆矩陣、ROC曲線。

　　擬合的評估指標：平均絕對偏差MAE、平均平方偏差MSE、解釋方差分R2。

　　聚類模型的評估指標：輪廓係數。

十二、解釋召回率,F1值,準確率,精確率

　　準確率：對於給定的測試集，分類模型正確分類的樣本數與總樣本數之比。

　　精確率：對於給定測試集的某一個類別，分類模型預測正確的比例，或者說：分類模型預測的正樣本中有多少是真正的正樣本。

　　召回率：對於給定測試集的某一個類別，樣本中的正類有多少被分類模型預測正確。

　　F1值：表明精確率和召回率的權重是同樣的，是最經常使用的一種評價指標。

1三、Mean-shift（均值遷移）的基本思想

　　Mean-shift（即：均值遷移）的基本思想：在數據集中選定一個點，而後以這個點爲圓心，r爲半徑，畫一個圓(二維下是圓)，求出這個點到全部點的向量的平均值，而圓心與向量均值的和爲新的圓心，而後迭代此過程，直到知足一點的條件結束。

1四、Ndarray的矢量、矢量化

　　矢量：即有大小又有方向

　　矢量化：圖形處理，壓縮圖像

1五、經常使用的分類器：

　　SGD分類器、決策樹、樸素貝葉斯分類器 (也均可以作迴歸)

1六、簡述樸素貝葉斯

　　樸素貝葉斯的樸素，並非簡單的意思，而是指樣本的特徵之間是相互獨立的

　　樸素貝葉斯的優勢：1.有穩定的分類效率，2.對小規模數據表現很好，能處理多分類任務，適合增量式訓練，尤爲是數據量超出內存是，能夠一批一批的增量馴良。3.對缺失數據不太敏感，算法比較簡單，經常使用語文本分類

　　樸素貝葉斯的缺點：1.不知足獨立性條件的數據集上，效果欠佳，2.須要先知道先驗機率，先驗模型不少時候取決於假設，所以某些時候會因爲假設的先驗模型的元嬰致使預測效果不佳，3.因爲經過先驗和數據來決定後驗的機率從而決定分類，因此分類決策存在必定的錯誤率

1七、什麼是先驗機率，什麼是後驗機率

　　先驗機率：也叫先驗分佈，根據以往經驗和分析獲得的機率

　　後驗機率：也叫後驗分佈，根據結果估計緣由的機率

1八、kmeans的優勢和缺點

　　kmeans：優勢：簡單快速，對於大數據集，可伸縮性高效率，對於密集型數據，效果很是好
　　缺點：必須事先給出k值，不適用於非密集型數據集，對噪聲和孤立點數據比較敏感

1九、什麼是pandas

　　Pandas是一個強大的分析結構化數據的工具集，基於NumPy構建，提供了 高級數據結構 和 數據操做工具，它是使Python成爲強大而高效的數據分析環境的重要因素之一。

基礎是NumPy，提供了高性能矩陣的運算
提供了大量可以快速便捷地處理數據的函數和方法
應用於數據挖掘，數據分析
提供數據清洗功能

20、什麼是正太分佈與標準正太分佈

正太分佈：也叫（高斯分佈Gaussian distribution），是一種隨機機率分佈

標準正太分佈：指望爲0，標準差爲1的正太分佈

2一、描述Anocanda 、pycharm 、Jupyterlab 、JupyterNoteBook之間的區別？

　　Anaconda是一個開源的包、環境管理器，能夠用於在同一個機器上安裝不一樣版本的軟件包及其依賴，並可以在不一樣的環境之間切換PyCharm是一種Python IDE，帶有一整套能夠幫助用戶在使用Python語言開發時提升其效率的工具，好比調試、語法高亮、Project管理、代碼跳轉、智能提示、自動完成、單元測試、版本控制。

　　Jupyter Notebook 是一個款以網頁爲基礎的交互計算環境，能夠建立Jupyter的文檔，支持多種語言，包括Python, Julia, R等等。普遍用於數據分析，數據可視化和其餘的交互和探索性計算中。

　　JupyterLab 是包括了Notebook的下一代用戶界面。有模塊化的界面，能夠在同一個窗口同時打開好幾個notebook或文件（HTML, TXT, Markdown等等），都以標籤的形式展現，因而就更像是一個IDE。

2二、過擬合和欠擬合？

過擬合指的是referstoa模型對於訓練數據擬合程度過當的狀況。

欠擬合指的是模型在訓練和預測時表現都很差的狀況。

泛化便是，機器學習模型學習到的概念在它處於學習的過程當中時模型沒有碰見過的樣本時候的表現。