【數據科學系統學習】數據科學在作什麼 # 專題概述

博主在一開始學習數據科學時,沒有人帶路,沒有一條直接的路徑。所以各類信息都接收,一開始比較混亂,後來接觸的多了,漸漸開始瞭解到關於數據科學無非分爲數學中的統計學、計算機中的 python 和機器學習算法、項目中對業務的理解三大塊。在學習方法和知識獲取上也多走了彎路,浪費了不少時間,如今將它們進行一遍梳理,多爲根據本身的理解進行輸出與再學習,若是對想探索數據科學的你有一點用,還請點擊文末的贊與收藏,給個鼓勵。python

數據科學系統學習這個專題將從這三方面進行整理,下面進入正文。算法


關於數據科學的概述

數據分析首先是基於某個行業的,而後在這個基礎上有必定目的性的去採集、處理、分析並解釋數據,最後得出有必定價值信息的過程。網絡

其中,行業需求最大的是金融/電商行業,對數據進行處理就須要用到統計方法,最後經過提取有價值的信息來改變業務決策,提升利潤指標。框架

總的來講,用數據科學的知識來完成一個項目,須要進行數據分析數據挖掘兩步。機器學習

數據分析和數據挖掘的區別總結以下:
圖片描述學習

統計方法的分析方法分爲:描述性統計方法,迴歸分析,對應分析,因子分析,方差分析等。
數據挖掘的分析方法分爲:聚類分析,分類分析,關聯規則,迴歸分析等。spa

關於統計學的應用

描述性分析就是從整體數據中提煉變量的主要信息,即統計量。這類分析只要明確分析的主題和可能的影響因素,肯定可量化主題和影響因素的指標,根據這些指標的度量類型選擇適用的統計表和圖進行信息呈現。code

因爲統計推斷的算法是根據分析變量的度量類型定製開發的,這就須要分析人員對各種指標的分佈類型有所認識,合理選擇算法。而深度學習算法是通用的,能夠在一個框架下完成全部任務。在數據科學體系中,統計推斷的算法每每是數據挖掘算法的基礎,好比特徵工程中大量使用統計推斷算法進行特徵創造與特徵提取。圖片

統計推斷與建模方法以下表:
圖片描述開發

關於數據挖掘的應用

數據挖掘的方法分爲描述性預測性兩種。它們都是基於歷史數據進行分析,不一樣的是,預測性模型從歷史數據中找出規律,並用於預測將來;描述性模型用於直觀地反映歷史情況,爲後續的分析提供思路。

描述性數據挖掘也被稱爲模式識別,建模數據通常都具備多個屬性或變量,屬性用於描述各個觀測的特徵。用於描述現有的規律,常見的算法以下:

  • 聚類分析:根據觀測值之間類似度的大小將觀測值進行聚類,常見的有客戶分羣、市場細分。
  • 關聯規則分析:發現強關聯規則的物品組合,經常使用於商品的交叉銷售。
  • 因子、主成分分析:發現變量之間的相關性,將多維數據降維,並對降維後的數據進行解釋。

預測性數據分析的數據有明確的預測變量與相應的因變量,用於預測將來將發生什麼,使用的模型算法有如下幾種:

  • 線性迴歸:對連續型預測變量進行迴歸預測分析。
  • 邏輯迴歸:對二元預測變量進行迴歸預測分析。
  • 神經元網絡:模擬神經元工做原理,依據數據進行訓練和預測。
  • 決策樹:模擬人類決策過程,依據必定規則生成樹狀圖並進行預測。
  • 支持向量機:將低維數據映射到高維空間並進行分類預測。

若有不足,歡迎指正。

相關文章
相關標籤/搜索