【數據科學系統學習】數據科學在作什麼 # 專題概述

時間 2019-12-09

標籤數據科學系統學習數據科學在作什麼專題概述简体版

原文原文鏈接

博主在一開始學習數據科學時，沒有人帶路，沒有一條直接的路徑。所以各類信息都接收，一開始比較混亂，後來接觸的多了，漸漸開始瞭解到關於數據科學無非分爲數學中的統計學、計算機中的 python 和機器學習算法、項目中對業務的理解三大塊。在學習方法和知識獲取上也多走了彎路，浪費了不少時間，如今將它們進行一遍梳理，多爲根據本身的理解進行輸出與再學習，若是對想探索數據科學的你有一點用，還請點擊文末的贊與收藏，給個鼓勵。python

數據科學系統學習這個專題將從這三方面進行整理，下面進入正文。算法

關於數據科學的概述

數據分析首先是基於某個行業的，而後在這個基礎上有必定目的性的去採集、處理、分析並解釋數據，最後得出有必定價值信息的過程。網絡

其中，行業需求最大的是金融／電商行業，對數據進行處理就須要用到統計方法，最後經過提取有價值的信息來改變業務決策，提升利潤指標。框架

總的來講，用數據科學的知識來完成一個項目，須要進行數據分析和數據挖掘兩步。機器學習

數據分析和數據挖掘的區別總結以下：
學習

統計方法的分析方法分爲：描述性統計方法，迴歸分析，對應分析，因子分析，方差分析等。
數據挖掘的分析方法分爲：聚類分析，分類分析，關聯規則，迴歸分析等。spa

關於統計學的應用

描述性分析就是從整體數據中提煉變量的主要信息，即統計量。這類分析只要明確分析的主題和可能的影響因素，肯定可量化主題和影響因素的指標，根據這些指標的度量類型選擇適用的統計表和圖進行信息呈現。code

因爲統計推斷的算法是根據分析變量的度量類型定製開發的，這就須要分析人員對各種指標的分佈類型有所認識，合理選擇算法。而深度學習算法是通用的，能夠在一個框架下完成全部任務。在數據科學體系中，統計推斷的算法每每是數據挖掘算法的基礎，好比特徵工程中大量使用統計推斷算法進行特徵創造與特徵提取。圖片

統計推斷與建模方法以下表：
開發

關於數據挖掘的應用

數據挖掘的方法分爲描述性與預測性兩種。它們都是基於歷史數據進行分析，不一樣的是，預測性模型從歷史數據中找出規律，並用於預測將來；描述性模型用於直觀地反映歷史情況，爲後續的分析提供思路。

描述性數據挖掘也被稱爲模式識別，建模數據通常都具備多個屬性或變量，屬性用於描述各個觀測的特徵。用於描述現有的規律，常見的算法以下：

聚類分析：根據觀測值之間類似度的大小將觀測值進行聚類，常見的有客戶分羣、市場細分。
關聯規則分析：發現強關聯規則的物品組合，經常使用於商品的交叉銷售。
因子、主成分分析：發現變量之間的相關性，將多維數據降維，並對降維後的數據進行解釋。

預測性數據分析的數據有明確的預測變量與相應的因變量，用於預測將來將發生什麼，使用的模型算法有如下幾種：

線性迴歸：對連續型預測變量進行迴歸預測分析。
邏輯迴歸：對二元預測變量進行迴歸預測分析。
神經元網絡：模擬神經元工做原理，依據數據進行訓練和預測。
決策樹：模擬人類決策過程，依據必定規則生成樹狀圖並進行預測。
支持向量機：將低維數據映射到高維空間並進行分類預測。

若有不足，歡迎指正。

相關文章

相關標籤/搜索

java數據科學

數據科學家

數據科學系統學習

大數據學習

數據庫學習

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<