1.理解分類與監督學習、聚類與無監督學習。算法
(1)簡述分類與聚類的聯繫與區別。編程
分類是根據規則進行的,你把這個規則創建起來後還能夠運用到其餘還沒有分類的數據,同時還能夠根據新的已有類別數據修正分類規則,不斷提升其分類準確性 聚類是純粹的根據已有數據進行系統把數據聚類,有可能聚類出來的沒有實際意義,聚類也沒法經過訓練數據和後期的數據不斷提升準確度的。學習
(2)簡述什麼是監督學習與無監督學習。blog
監督學習:一部分已知分類、有標記的樣原本訓練機器後,讓它用學到的特徵,對沒有還分類、無標記的樣本進行分類、貼標籤。變量
無監督學習:即非監督學習,是實現沒有有標記的、已經分類好的樣本,須要咱們直接對輸入數據集進行建模,例如聚類,最直接的例子就是咱們常說的「人以羣分,物以類聚」。咱們只須要把類似度高的東西放在一塊兒,對於新來的樣本,計算類似度後,按照類似程度進行歸類就好。im
2.樸素貝葉斯分類算法 實例數據
利用關於心臟情患者的臨牀數據集,創建樸素貝葉斯分類模型。img
有六個分類變量(分類因子):性別,年齡、KILLP評分、飲酒、吸菸、住院天數標籤
目標分類變量疾病:–心梗–不穩定性心絞痛co
新的實例:–(性別=‘男’,年齡<70, KILLP=‘I',飲酒=‘是’,吸菸≈‘是」,住院天數<7)
最多是哪一個疾病?
上傳演算過程。
3.編程實現樸素貝葉斯分類算法
利用訓練數據集,創建分類模型。
輸入待分類項,輸出分類結果。
能夠心臟情患者的臨牀數據爲例,但要對數據預處理。