機器學習（一）------分類

時間 2019-12-09

標籤機器學習分類简体版

原文原文鏈接

機器學習（一）------分類

機器學習分類

機器學習分爲監督學習和無監督學習兩類。算法

監督學習是指在有標記的樣本上創建機器學習的模型（這類算法知道預測什麼，即目標變量的分類信息）。網絡

無監督學習偏偏相反，是指沒有標記的數據上創建學習模型。機器學習

主要任務：

分類：主要任務是將實例數據劃分到合適的分類中。學習

迴歸：例如數據擬合曲線（根據給定數據點的最優擬合曲線），主要用於預測數值型數據。測試

如何選擇合適的算法：

從上表中選擇實際可用的算法，要考慮如下兩個方面的問題：spa

一、使用機器學習算法的目的，想要算法完成何種任務；遞歸

二、須要分析和收集的數據是什麼；事件

主要了解數據的如下特徵：特徵值是離散型變量仍是連續型變量，特徵值是否存在缺失值，何種緣由形成的缺失，數據中是否存在異常值，某個特徵發生的頻率如何等。文檔

使用算法建立應用程序的步驟：

（1）收集數據（網絡爬蟲抽取、從RRS反饋或者API中獲得，設備發送的實測數據）；數學

（2）準備輸入數據（確保數據格式符合要求）；

（3）分析輸入數據（人工分析之前獲得的數據）；

（4）訓練算法（將前面獲得的格式化數據輸入到算法，從中抽取知識或信息；無監督學習沒有這一步）；

（5）測試算法（使用上一部機器學習獲得的知識信息）；

（6）使用算法（將機器學習算法轉換爲應用程序）。

1、K-近鄰算法

一、算法概述

簡單地說，k-近鄰算法採用測量不一樣特徵值之間的距離方法進行分類。

二、算法優缺點

優勢：精度高，對異常值不敏感、無數據輸入設定；

缺點：計算複雜度高、空間複雜度高；

使用數據範圍：數值型和標稱型。

三、算法工做原理

存在一個樣本數據集合，也稱做訓練樣本集，而且樣本集中每一個數據都存在標籤，即咱們知道樣本集中每個數據與所屬分類的對應關係。輸入沒有標籤的新數據後，將新數據的每一個特徵與樣本集中數據對應的特徵進行比較，而後算法提取樣本集中特徵最類似數據（最近鄰）的分類標籤。通常來講，咱們只選擇樣本數據集中前k個最類似的數據，這就是k-近鄰算法中K的出處，一般k是不大於20的整數。最後，選擇k個最類似數據中出現次數最多的分類，做爲新數據的分類。

2、決策樹

一、算法概述

決策樹是一種樹形結構，其中每一個內部節點表示一個屬性上的測試，每一個分支表明一個測試輸出，每一個葉節點表明一種類別。決策樹算法可以讀取數據集合，他的一個重要任務是爲了理解數據中所蘊含的知識信息，所以決策樹可使用不熟悉的數據集合，並從中提取出一系列規則，這些機器根據數據集建立規則的過程，就是機器學習的過程。