博主在一開始學習數據科學時,沒有人帶路,沒有一條直接的路徑。所以各類信息都接收,一開始比較混亂,後來接觸的多了,漸漸開始瞭解到關於數據科學無非分爲數學中的統計學、計算機中的 python 和機器學習算法、項目中對業務的理解
三大塊。在學習方法和知識獲取上也多走了彎路,浪費了不少時間,如今將它們進行一遍梳理,多爲根據本身的理解進行輸出與再學習,若是對想探索數據科學的你有一點用,還請點擊文末的贊與收藏,給個鼓勵。python
數據科學系統學習這個專題將從這三方面進行整理,下面進入正文。算法
數據分析首先是基於某個行業的,而後在這個基礎上有必定目的性的去採集、處理、分析並解釋數據,最後得出有必定價值信息的過程。網絡
其中,行業需求最大的是金融/電商行業,對數據進行處理就須要用到統計方法,最後經過提取有價值的信息來改變業務決策,提升利潤指標。框架
總的來講,用數據科學的知識來完成一個項目,須要進行數據分析
和數據挖掘
兩步。機器學習
數據分析和數據挖掘的區別總結以下:學習
統計方法的分析方法分爲:描述性統計方法,迴歸分析,對應分析,因子分析,方差分析等。
數據挖掘的分析方法分爲:聚類分析,分類分析,關聯規則,迴歸分析等。spa
描述性分析就是從整體數據中提煉變量的主要信息,即統計量
。這類分析只要明確分析的主題和可能的影響因素,肯定可量化主題和影響因素的指標,根據這些指標的度量類型
選擇適用的統計表和圖進行信息呈現。code
因爲統計推斷的算法是根據分析變量的度量類型定製開發的,這就須要分析人員對各種指標的分佈類型有所認識,合理選擇算法。而深度學習算法是通用的,能夠在一個框架下完成全部任務。在數據科學體系中,統計推斷的算法每每是數據挖掘算法的基礎,好比特徵工程中大量使用統計推斷算法進行特徵創造與特徵提取。圖片
統計推斷與建模方法以下表:開發
數據挖掘的方法分爲描述性
與預測性
兩種。它們都是基於歷史數據進行分析,不一樣的是,預測性模型從歷史數據中找出規律,並用於預測將來;描述性模型用於直觀地反映歷史情況,爲後續的分析提供思路。
描述性數據挖掘也被稱爲模式識別,建模數據通常都具備多個屬性或變量,屬性用於描述各個觀測的特徵。用於描述現有的規律,常見的算法以下:
預測性數據分析的數據有明確的預測變量與相應的因變量,用於預測將來將發生什麼,使用的模型算法有如下幾種:
若有不足,歡迎指正。