數學就像一條章魚,它有觸手能夠觸及到幾乎每一個學科上面。雖然大部分人在上學的時候有系統的學習,但都沒有進行深刻的研究和運用,只是拿來拓展本身的思惟邏輯。可是若是你想從事數學相關的研究或者崗位,你將不得不努力學習數學。若是你已經完成了數學學位或一些技能學位,你可能會知道你所學的是否都是必要的。html
你可能想知道:作大數據須要掌握多少數學知識?在這篇文章中,咱們將簡單瞭解大數據須要掌握的基本算法。python
機器學習算法,有數百種算法。覆蓋每種類型算法的深度不屬於本文的範圍,本文將討論您須要知道的如下經常使用算法的數學算法:git
樸素貝葉斯分類器是分類算法集合中基於貝葉斯理論的一種算法。github
貝葉斯理論指的是,根據一個已發生事件的機率,計算另外一個事件的發生機率。貝葉斯理論從數學上的表示能夠寫成這樣:算法
【注意】: A
和 B
都是事件,P(B)
不爲0編程
上面的公式看着有點複雜,咱們能夠對它進行分解。 基本上,只要咱們給出了事件B爲真,那麼就能算出事件A發生的機率,事件B也被稱爲證據。數組
P(A|B)
是條件機率。- 在B
爲真的狀況下發生事件A的可能性。P(B|A)
也是條件機率。- 給定A
的事件B
發生的可能性爲真。P(A)
是事件A
的先驗(先驗機率,例如,在證據以前發生的機率),證據是一個未知事件的一個屬性值(在這裏就是事件B
)。簡單來講就是P(A)
和 P(B)
是彼此獨立觀察A
和 B
的機率。接下來咱們會經過例子來加深理解。bash
人們在生活中也常常會無心識的用到貝葉斯定理,好比下面這個例子網絡
條件已知:機器學習
P(A)
=碰見酒量大的人的機率。P(B)
= 碰見東北人的機率。P(B|A)
= 碰見酒量大的人是東北人的機率推算出東北人的酒量大的機率:P(A|B) = P(A)*P(B|A)/P(B)
=碰見酒量大的人的機率*碰見酒量大的人是東北人的機率/碰見東北人的機率。
從上面的公式咱們還能夠學到如何下降對東北人酒量大的偏見:
上面咱們講的是在生活中的應用,那麼用在大數據處理和機器學習有哪些應用呢,請繼續看下面這個例子:
假設咱們有十萬郵件,每一個郵件都已經標記好是不是垃圾郵件。經過這些數據咱們能夠算出:
P(A)
=垃圾郵件的機率,垃圾郵件/全部的郵件。P(B)
= 郵件中出現詞M的機率,出現詞M
的郵件/全部的郵件。P(B|A)
= 垃圾郵件中出現詞M
機率,垃圾郵件中含有詞M
的郵件數量/全部的垃圾郵件。能夠獲得: 出現詞M的郵件是垃圾郵件的機率P(A|B) = P(A)*P(B|A)/P(B)
=郵件中出現詞M的機率X垃圾郵件中出現詞M機率/是垃圾郵件的機率。
對垃圾郵件學習的過程就是計算P(A|B)
的過程。通常會有多個詞或多個詞的組合嘗試,直到找到機率大於預期機率(好比,0.7,0.88,0.93等)的詞 M一、M2 等。而後就能夠用獲得的詞計算,判斷新的郵件是不是垃圾郵件。
線性迴歸,就是可以用一根直線較爲精確地描述數據之間的關係。這樣當出現新的數據的時候,就可以預測出一個簡單的值。
在機器學習中,數學函數被稱爲模型。在線性迴歸的狀況下,模型能夠表示爲:
其中a1,a2,...,an
表示特定於數據集的參數值,x1,x2,...,xn
表示咱們選擇在模型中使用的要素列,y
表示目標列。線性迴歸的目標是找到最佳描述特徵列和目標列之間關係的最佳參數值。換句話說:找到最適合數據的線,以即可之外推趨勢線以預測將來結果。爲了找到線性迴歸模型的最佳參數,咱們但願最小化模型的殘差平方和。
接下來的案例是關於一個簡單的線性迴歸模型。
y=a+bx+e
以下所示數據,咱們隨機獲取一些男生的身高和體重
編號 | 身高(cm) | 體重(kg) |
---|---|---|
1 | 165 | 60 |
2 | 170 | 64 |
3 | 172 | 66 |
4 | 177 | 68 |
5 | 180 | 70 |
6 | 157 | 55 |
... | ... | ... |
求根據一名男生的身高預報他的體重的迴歸方程,並預報一名身高爲173cm的男生的體重,散列點以下
解:1.選取身高爲自變量X,體重爲因變量Y,做散點圖:
python 源碼以下:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from sklearn.linear_model import LinearRegression
if __name__ == "__main__":
data = pd.read_csv('./linear.csv') # TV、Radio、Newspaper、Sales
print(data)
x = data[['height', 'weight']]
# 畫出散點圖,求x和y的相關係數
plt.scatter(data.height, data.weight)
data.corr()
print(data.corr())
# 估計模型參數,創建迴歸模型
# 首先導入簡單線性迴歸的求解類LinearRegression
# 而後使用該類進行建模,獲得lrModel的模型變量
lrModel = LinearRegression()
# 把自變量和因變量選擇出來
x = data[['height']]
y = data[['weight']]
plt.xlabel('X')
# 設置Y軸標籤
plt.ylabel('Y')
# 調用模型的fit方法,對模型進行訓練
# 這個訓練過程就是參數求解的過程
# 並對模型進行擬合
lrModel.fit(x, y)
# 對迴歸模型進行檢驗
lrModel.score(x, y)
print(lrModel.score(x, y))
# 利用迴歸模型進行預測
lrModel.predict([[160], [170]])
print(lrModel.predict([[160], [170]]))
# 查看截距
alpha = lrModel.intercept_[0]
# 查看參數
beta = lrModel.coef_[0][0]
test = alpha + beta * np.array([167, 170])
print(alpha, beta, test)
y_test = beta * x + alpha
# plt.plot(x, y, 'g-', linewidth=6, label='真實數據')
plt.plot(x, y_test, 'r-', linewidth=2, label='預測數據')
plt.show()
複製代碼
邏輯迴歸算法(Logistic Regression)雖然是線性迴歸算法,可是其它線性迴歸有所不一樣,邏輯迴歸的預測結果只有兩種,即true(1)和false(0)。所以,Logistic regression ( 邏輯迴歸 ) ,儘管它的名字是迴歸,是一個用於分類的線性模型而不是用於迴歸。因此,邏輯迴歸算法每每適用於數據的分類。
那麼要想數據將數據的擬合結果映射到1和0上,就須要構造一個函數,使得該函數的結果只有0、1。事實上,邏輯迴歸算法的擬合函數稱爲sigmond函數
,該函數的輸出值只有0、1,並且是一個平滑的函數。咱們又稱該函數爲邏輯函數。該函數的表達式以下:
那麼爲何sigmoid函數
老是返回0到1之間的值?請記住,從代數中將任何數字提升到負指數與將該數字的倒數提升到相應的正指數相同。
咱們能夠用 Python 把它的函數圖像畫出來
從圖上可知,Y的值域爲(0,1),那麼就能夠將決策函數值大於等於 0.5 的具備對應x屬性的對象歸爲正樣本,決策函數值小於 0.5 的具備對應x屬性的對象歸爲負樣本。這樣就能夠對樣本 數據進行二分類。
上圖的代碼以下:
import matplotlib.pyplot as plt
import numpy as np
def sigmoid(x):
# 直接返回sigmoid函數
return 1 / (1 + np.exp(-x))
if __name__ == '__main__':
# param:起點,終點,間距
x = np.arange(-10, 10, 0.2)
y = sigmoid(x)
plt.plot(x, y, 'r-', linewidth=2)
plt.show()
複製代碼
Logistic Regression
的目的是尋找一個非線性函數 Sigmoid的最佳擬合參數,在求解過程當中用最優化算法完成。該算法的優勢是容易理解與實現,計算代價不高
鳶尾花數據集或許是最有名的模式識別測試數據
該數據集包括3個鳶尾花類別,每一個類別有50個樣 本。其中一個類別是與另外兩類線性可分的,而另 外兩類不能線性可分。
該數據集共150行,每行1個樣本。 每一個樣本有5個字段,分別是
咱們看看代碼的實現效果圖
import numpy as np
import pandas as pd
from sklearn import preprocessing
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.pipeline import Pipeline
import matplotlib as mpl
import matplotlib.pyplot as plt
import matplotlib.patches as mpatches
if __name__ == "__main__":
path = './iris.data' # 數據文件路徑
data = pd.read_csv(path, header=None)
data[4] = pd.Categorical(data[4]).codes
x, y = np.split(data.values, (4,), axis=1)
# print 'x = \n', x
# print 'y = \n', y
# 僅使用前兩列特徵
x = x[:, :2]
# y.ravel()是獲取矩陣
lr = LogisticRegression(C=1e5)
# pipeline 優化邏輯迴歸準確度 參數集在新數據集(好比測試集)上的重複使用
# 管道機制更像是編程技巧的創新,而非算法的創新。
# 可放在Pipeline中的步驟可能有 (1)特徵標準化是須要的,可做爲第一個環節
# (2)既然是分類器,classifier也是少不了的,天然是最後一個環節
# 標準化數據 - PolynomialFeatures類能夠進行特徵的構造
# lr = Pipeline([('sc', StandardScaler()),
# ('poly', PolynomialFeatures(degree=1)),
# ('clf', LogisticRegression())])
lr.fit(x, y.ravel())
y_hat = lr.predict(x)
y_hat_prob = lr.predict_proba(x)
np.set_printoptions(suppress=True)
print('y_hat = \n', y_hat)
print('y_hat_prob = \n', y_hat_prob)
print('準確度:%.2f%%' % (100*np.mean(y_hat == y.ravel())))
# 畫圖
N, M = 200, 200 # 橫縱各採樣多少個值
x1_min, x1_max = x[:, 0].min(), x[:, 0].max() # 第0列的範圍
x2_min, x2_max = x[:, 1].min(), x[:, 1].max() # 第1列的範圍
t1 = np.linspace(x1_min, x1_max, N)
t2 = np.linspace(x2_min, x2_max, M)
x1, x2 = np.meshgrid(t1, t2) # 生成網格採樣點
print(x1, x2)
x_test = np.stack((x1.flat, x2.flat), axis=1) # 測試點
# mpl.rcParams['font.sans-serif'] = ['simHei']
# mpl.rcParams['axes.unicode_minus'] = False
cm_light = mpl.colors.ListedColormap(['#77E0A0', '#FF8080', '#A0A0FF'])
cm_dark = mpl.colors.ListedColormap(['g', 'r', 'b'])
y_hat = lr.predict(x_test) # 預測值
y_hat = y_hat.reshape(x1.shape) # 使之與輸入的形狀相同
print("y_hat", y_hat)
plt.figure(facecolor='w')
#這個函數講x1,x2的兩個網絡矩陣和對應的預測值y_hat繪製在圖片上,能夠發現輸出爲三個顏色區塊,分佈表示分類的區域
plt.pcolormesh(x1, x2, y_hat, cmap=cm_light) # 預測值的顯示
# 樣本的散列點
plt.scatter(x[:, 0], x[:, 1], c=y.flat, edgecolors='k', s=50, cmap=cm_dark)
plt.xlabel(u'Iris height', fontsize=14)
plt.ylabel(u'Iris width', fontsize=14)
print(x1_min, x1_max, x2_min, x2_max)
plt.xlim(x1_min, x1_max)
plt.ylim(x2_min, x2_max)
plt.grid()
patchs = [mpatches.Patch(color='#77E0A0', label='Iris-setosa'),
mpatches.Patch(color='#FF8080', label='Iris-versicolor'),
mpatches.Patch(color='#A0A0FF', label='Iris-virginica')]
plt.legend(handles=patchs, fancybox=True, framealpha=0.8)
# plt.title(u'鳶尾花Logistic迴歸分類效果 - 標準化', fontsize=17)
plt.show()
複製代碼
#第一種方法
#獲取第一列的數據
X = [x[0] for x in DD]
#獲取第二列的數據
Y = [x[1] for x in DD]
plt.scatter(X[:50], Y[:50], color='red', marker='o', label='setosa') #前50個樣本
plt.scatter(X[50:100], Y[50:100], color='blue', marker='x', label='versicolor') #中間50個
plt.scatter(X[100:], Y[100:],color='green', marker='+', label='Virginica') #後50個樣本
#第二種
plt.scatter(x[:, 0], x[:, 1], c=y.flat, edgecolors='k', s=50, cmap=cm_dark)
複製代碼
[[4.3 4.31809045 4.3361809 ... 7.8638191 7.88190955 7.9 ]
複製代碼
[4.3 4.31809045 4.3361809 ... 7.8638191 7.88190955 7.9 ] [4.3 4.31809045 4.3361809 ... 7.8638191 7.88190955 7.9 ] ... [4.3 4.31809045 4.3361809 ... 7.8638191 7.88190955 7.9 ] [4.3 4.31809045 4.3361809 ... 7.8638191 7.88190955 7.9 ] [4.3 4.31809045 4.3361809 ... 7.8638191 7.88190955 7.9 ]] [[2. 2. 2. ... 2. 2. 2. ] [2.0120603 2.0120603 2.0120603 ... 2.0120603 2.0120603 2.0120603] [2.0241206 2.0241206 2.0241206 ... 2.0241206 2.0241206 2.0241206] ... [4.3758794 4.3758794 4.3758794 ... 4.3758794 4.3758794 4.3758794] [4.3879397 4.3879397 4.3879397 ... 4.3879397 4.3879397 4.3879397] [4.4 4.4 4.4 ... 4.4 4.4 4.4 ]] ```
x.ravel() 調用ravel()函數將xx和yy的兩個矩陣轉變成一維數組
y_hat = y_hat.reshape(x1.shape)
用reshape()函數修改形狀,將其y_hat轉換爲兩個特徵(長度和寬度)。輸出以下
[[1. 1. 1. ... 2. 2. 2.]
[1. 1. 1. ... 2. 2. 2.]
[1. 1. 1. ... 2. 2. 2.]
...
[0. 0. 0. ... 2. 2. 2.]
[0. 0. 0. ... 2. 2. 2.]
[0. 0. 0. ... 2. 2. 2.]]
複製代碼
lr.predict(x_test)
對數據進行預測函數
plt.pcolormesh(x1, x2, y_hat, cmap=cm_light)
這個函數講x1,x2的兩個網絡矩陣和對應的預測值y_hat繪製在圖片上,能夠發現輸出爲三個顏色區塊,分佈表示分類的區域
更多知識點但願讀者下來後進行拓展,也推薦大學從Sklearn開源知識官網學習最新的實例。
若是你想深刻了解概念,我建議學習機率論以及離散數學或實際分析。
k-means聚類
算法是一種無監督機器學習算法,用於對未標記的數據(即未定義類別或組的數據)進行分類。該算法經過在數據中查找組來工做,組的數量由變量k表示。而後,它遍歷數據,根據提供的特徵將每一個數據點分配給k個組中的一個。k-means聚類
依賴於整個算法中距離的概念來「分配」數據點給一個聚類。若是你不熟悉距離的概念,它指的是兩個給定項目之間的空間量。在數學中,任何描述集合中任意兩個元素之間距離的函數稱爲距離函數或度量。
聚是一個將數據集中在某些方面類似的數據成員進行分類組織的過程,聚類就是一種發現這種內在結構的技術,聚類技術常常被稱爲無監督學習。
k均值聚類是最著名的劃分聚類算法,因爲簡潔和效率使得他成爲全部聚類算法中最普遍使用的。給定一個數據點集合和須要的聚類數目k,k由用戶指定,k均值算法根據某個距離函數反覆把數據分入k個聚類中。
歐幾里德度量定義以下:
(x1, y1)
和
(x2, y2)
是笛卡爾平面上的座標點。雖然
歐幾里德
度量是足夠的,但在某些狀況下它不起做用。假設你在一個大城市裏散步,若是有一座巨大的建築物擋住了你的去路,那麼說「我離目的地只有6.5個單位」是沒有意義的。爲了解決這個問題,咱們可使用出租車指標
出租車指標以下:
這一個沒那麼複雜;實際上你只須要知道加減法,瞭解代數的基本知識,就能夠掌握距離公式。可是爲了對這些度量中的每一種幾何的基本類型有一個明確的理解,我推薦一個同時包含歐幾里德幾何
和非歐幾里德幾何
的幾何類。爲了深刻了解度量和度量空間的含義,須要閱讀數學分析並學習一門真正的分析課程。
步驟以下
k
個對象做爲初始的聚類中心。決策樹是相似流程圖的樹結構,它使用分支方法來講明決策的每一個可能結果。樹中的每一個節點表明對特定變量的測試 - 每一個分支都是該測試的結果。
決策樹依賴於一種稱爲信息理論的理論來肯定它們是如何構建的。在信息理論中,人們對某個主題的瞭解越多,人們能夠知道的新信息就越少。信息理論的關鍵措施之一被稱爲熵。
熵的概念源於物理學,用於度量一個熱力學系統的無序程度。
信息熵:不得不提香農這個大寫的人啦!信息論裏面的知識。在信息論裏面,信息熵衡量信息量的大小,也就是對隨機變量不肯定度的一個衡量。熵越大,不肯定性越大。
熵能夠這樣寫:
推薦看這個鏈接,裏面講解的很詳細,而且附有demo 決策樹講解
P(x)
是數據集中發生特徵的機率。 從定義中可知:0≤Entropy(X)≤log(n)
當隨機變量只取兩個值時,即 X
的分佈爲 P(X=1)=p
,X(X=0)=1−p,0≤p≤1則熵爲:Entropy(X)=−plog2(p)−(1−p)log2(1−p)。熵值越高,則數據混合的種類越高,其蘊含的含義是一個變量可能的變化越多(反而跟變量具體的取值沒有任何關係,只和值的種類多少以及發生機率有關),它攜帶的信息量就越大。熵在信息論中是一個很是重要的概念,不少機器學習的算法都會利用到這個概念。 應該注意,任何基數b均可以用於對數;可是咱們經常使用的是2,e和10
。你可能注意到一個像S
的一個符號。這是求和符號,它意味着儘量屢次地連續添加求和以外的任何函數。加多少次取決於求和的下限和上限。在計算了熵以後,咱們能夠利用信息增益來構造決策樹,從而判斷哪個分裂將最大程度地下降熵。信息增益公式以下:
1)通常而言,信息增益越大,則意味着用屬性 A 進行劃分所得到的"純度提高"越大,所以,咱們可用信息增益來進行決策樹的劃分屬性選擇。
2)著名的ID3 決策樹學習算就是以信息增益爲準則來選擇劃分屬性。
基本的代數和機率是你真正須要刮掉決策樹的表面。若是你想要對機率和對數進行深刻的概念性理解,我會推薦機率論和代數課程
數學在數據科學中無處不在。雖然有些數據科學算法有時會感受像魔術,但咱們能夠理解許多算法的細節而不須要代數和基本機率和統計數據。 若是你不想學習任何數學?從技術上講,你 能夠依靠機器學習庫,如scikit-learn
爲你作全部這些。可是,對於數據科學家來講,對這些算法背後的數學和統計學有充分的瞭解很是有幫助,這樣他們就能夠爲他們的問題和數據集選擇最佳算法,從而作出更準確的預測。因此擁抱痛苦,深刻數學!它並不像你想象的那麼難,並且咱們甚至已經開設了一些關於這些主題的課程來幫助你入門: