所謂人工智能,通俗地講是指由人工製造出來的系統所表現出來的智能算法
機器學習簡單來說就是經過算法,使機器能從大量歷史數據中學習規律,從而對新的樣本作出智能識別或對將來作預測機器學習
機器學習是基於機率統計、矩陣或圖模型而得出的分析結論學習
機器學習是人工智能的一個分支人工智能
深度學習是機器學習的一個新領域spa
監督學習orm |
邏輯迴歸、K近鄰、樸素貝葉斯、隨機森立、支持向量機隊列 |
無監督學習ci |
K-means、DBSCAN、協同過濾、LDA深度學習 |
半監督學習it |
標籤傳播 |
強化學習 |
隱馬爾可夫 |
監督學習法Supervised Learning |
經過過往的一些數據的特徵以及最終結果來進行訓練的方式就是監督學習法 |
分類算法 K近鄰、樸素貝葉斯、決策樹、隨機森林、GBDT和支持向量機等
迴歸算法 邏輯迴歸、線性迴歸等
|
無監督學習Unsupervised Learning |
是指訓練樣本不依賴於打標數據的機器學習算法:無監督學習主要是用來解決一些聚類場景的問題,由於當咱們的訓練數據缺失了目標值以後,能作的事情就只剩下比對不一樣樣本間的距離關係
|
聚類算法 K-Means、DBSCAN等
推薦算法 協同過濾等
|
半監督學習Semi-supervised Learning |
對樣本的部分打標來進行機器學習算法的使用,這種部分打標樣本的訓練數據的算法應用,就是半監督學習 |
目前不少半監督學習算法都是監督學習算法的變形,本書將介紹一種半監督學習算法——標籤傳播算法 |
強化學習Reinforcement Learning |
強調的是系統與外界不斷地交互,得到外界的反饋,而後決定自身的行爲。強化學習目前是人工智能領域的一個熱點算法種類,典型的案例包括無人汽車駕駛和阿爾法狗下圍棋。本書介紹的分詞算法隱馬爾科夫就是一種強化學習的思想。 |
無人汽車駕駛和阿爾法狗, 分詞算法隱馬爾科夫 |
場景解析是數據挖掘流程的第1步
過擬合(Over-fitting), |
是過分擬合的意思,常發生在線性分類器或者線性模型的訓練和預測當中 |
|
精確率、召回率、F1值 |
|
|
數據探查 |
數據量的大小 數據缺失或亂碼 字段類型 是否含有目標隊列 |
ETL操做(描述將數據歷來源端通過抽取(Extract)、轉換(Transform)、加載(Load)至目的端的過程),稱爲「數據清洗 |
場景抽象 |
商品推薦 疾病預測 人物關係挖掘 |
把商品購買行爲抽象成了「是」或者「否」這樣的二分類問題 對應症狀,因此只要挖掘每一個時期的不一樣病變特徵,就能夠實現預測,進而能夠把癌症預測抽象成一個多分類的場景 |
算法選擇 |
肯定算法範圍 多算法嘗試 多視角分析 |
|
數據預處理是數據挖掘流程的第2步
採樣 |
隨機採樣 系統採樣 分層採樣 |
|
歸一化 |
公式y=(x-MinValue)/(MaxValue- MinValue) |
歸一化是指一種簡化計算的方式,將數據通過處理以後限定到必定的範圍以內,通常都會將數據限定在[0,1]。 能夠加快算法的收斂速度 |
數據過濾 |
|
|
去除噪聲 |