圖源:pixabaygit
做爲一切科學的基礎,數學在數據科學領域也佔據着重要地位。若是你是一名數據科學愛好者,必定想過這些問題:算法
· 我能夠在幾乎沒有數學背景的狀況下,成爲一名數據科學家嗎?
· 在數據科學中,哪些基本的數學技能是重要的?編程
有不少好用的包能夠用來構建預測模型,或生成數據可視化。一些最經常使用的描述性分析和預測性分析包包括:Ggplot二、Matplotlib、Seaborn、Scikit-learn、Caret、TensorFlow、PyTorch、Keras等。機器學習
有了這些包,任何人均可以構建模型或者生成數據可視化。然而,想要微調模型,使之能產生具備最佳性能的可靠模型,確實須要很是紮實的數學基礎知識。ide
創建模型是一回事,可是解釋模型,而且總結出有意義的,且可用於數據驅動的決策制定的結論是另外一回事。重要的是,在使用這些包以前,讀者必需要對每個包的數學基礎有所瞭解,不只限將這些包做爲黑盒子工具來使用。函數
假設如今要創建一個多元迴歸模型。在此以前,咱們須要問本身幾個問題:工具
· 數據集有多大?
· 個人特徵變量和目標變量是什麼?
· 哪些預測特徵與目標變量最相關?
· 哪些功能很重要?
· 應該縮放特徵嗎?
· 如何提升模型的預測能力?
· 應該使用正則迴歸模型嗎?
· 迴歸係數是多少?
· 什麼是攔截?
· 如何將數據集劃分爲訓練集和測試集?
· 什麼是主成分分析(PCA)?
· 應該使用主成分分析來刪除冗餘的特徵嗎?
· 應不該該使用非參數迴歸模型,如k鄰近迴歸(或支持向量迴歸)?
· 模型中有哪些超參數,如何對它們進行微調以得到性能最優的模型?
· 如何評估模型?是用R2-score(決定係數),MSE(均方偏差),仍是MAE(平均絕對偏差)?性能
圖源:pixabay學習
沒有良好的數學背景,就沒法回答上述問題。在數據科學和機器學習中,數學技能和編程技能同等重要。做爲一名數據科學愛好者,必定要投入時間來研究數據科學和機器學習的理論和數學基礎。測試
可否創建可靠而有效的模型,使其應用於現實世界的問題,取決於讀者的數學技能有多好。接下來咱們來討論一下在數據科學和機器學習中所須要的一些基本數學技能。
線性代數是機器學習中最重要的數學技能。數據集表示爲矩陣,線性代數用於數據預處理、數據轉換、降維和模型評估。
如下是你們須要熟悉的:向量;向量的範數;矩陣;矩陣的轉置;逆矩陣;矩陣的行列式;矩陣的跡;點積;特徵值;特徵向量。
圖源:pixabay
統計與機率用於特徵可視化、數據預處理、特徵轉換、數據插補、降維、特徵工程、模型評價等。
如下是你們須要熟悉的:均值、中值、模式、標準差/方差、相關係數和協方差矩陣、機率分佈(二項式、泊松分佈、正態分佈)、p值、貝葉斯定理(精度、召回率、正預測值、負預測值、混淆矩陣、ROC曲線)、中心極限定理,R-2 score,均方偏差(MSE),A/B檢驗,蒙特卡羅模擬。
大多數機器學習模型都是由一個具備多個特徵或預測器的數據集創建的。所以,熟悉多變量微積分對於創建機器學習模型很是重要。
如下是你們須要熟悉的:多元函數;導數和梯度;階躍函數、S形函數、Logit效用函數、ReLU(修正線性單元)函數;成本函數;函數繪圖;函數的最小值和最大值。
大多數機器學習算法是經過最小化目標函數進行預測建模,從而學習爲得到預測標籤而必須應用於測試數據的權重。
如下是你們須要熟悉的:成本函數/目標函數;似然函數;偏差函數;梯度降低算法及其變體(例如隨機梯度降低算法)。
圖源:pixabay
本文討論了數據科學和機器學習所需的基本數學和理論技能。互聯網時代,你能很輕鬆找到學習資源。做爲數據科學愛好者必定要記住,數據科學的理論基礎對於高效可靠的模型創建相當重要。你應該花足夠的時間來鑽研每種機器學習算法背後的數學理論,這對於數據科學來講是必不可少的。
編譯組:王俊博、賀宇 相關連接: https://medium.com/towards-artificial-intelligence/how-much-math-do-i-need-in-data-science-d05d83f8cb19 如轉載,請後臺留言,遵照轉載規範
ACL2018論文集50篇解讀 EMNLP2017論文集28篇論文解讀 2018年AI三大頂會中國學術成果全連接 ACL2017論文集:34篇解讀乾貨全在這裏 10篇AAAI2017經典論文回顧