大白話5分鐘帶你走進人工智能-第十六節邏輯迴歸之分類的緣由(1)

                                                                                                                                 第十六節邏輯迴歸作分類的緣由(1)算法

從本節開始,咱們講解一個新的算法,邏輯迴歸。多元性迴歸是作迴歸的,它真的是迴歸這個領域裏面的一個算法。對於有監督機器學習來講,除了作迴歸還能夠作分類。邏輯迴歸是一個分類的算法。迴歸跟分類它倆都是有監督的機器學習,有什麼區別呢?區別在於y。迴歸的y是負無窮到正無窮之間的若是是分類,咱們的這個地方的y就得是,通常從0開始,0是第1個分類,1是第2個分類,2是第3個分類,3是第4個分類,它是一個離散的。因此首先你拿了一份數據,得問本身這份數據是作什麼的,若是是作迴歸,就得問誰是y,誰是目標。發現y以後,若是是迴歸,它必須得是連續的;若是是分類,若是y不是零散的,應該把它變成零散的。app

logistic regression,邏輯迴歸,有些書上也會叫作羅基斯特迴歸,雖然它叫回歸,但它是作分類的,它跟咱們的迴歸有什麼關係呢?咱們從簡單開始來講,二分類,二分類的y分類號只有兩個,一個是0,還有一個是1,一般0稱爲叫負例,1稱爲叫正例。也就是說y這一列,它要麼就是0,要麼就是1。y=W^T*X,用前面的多元線性迴歸,能不能去作分類?機器學習

好比下面這張圖:學習

橫軸Tumor Size,腫瘤的大小,縱軸,Malignant,惡性的意思。 y要麼是0,要麼就是1,每一個紅色的x是每一個樣本,每一個點至關於樣本點位置。若是咱們用多元線迴歸,就是用一條直線儘量穿過一個個的點,就是去擬合,使得mse變小。圖中粉色的線是咱們擬合的曲線。怎麼樣把數據點分開?若是是一維的(一維就是一根直線一個軸),切成兩半,只須要找一個點就能夠切開。若是這條直線的區間是負無窮到正無窮,那麼這個點是零。   若是升高維度是二維的,有兩個軸,要把一個平面切成兩半,你須要一個直線,但直線的位置就要根據已有的點來定了。區間爲正無窮到負無窮的一維直線能夠用0的位置來區分。由於咱們擬合的直線y=W^T*X也是一條一維的直線,咱們要把這條直線且分開,只須要找到一個X去乘以已有的w模型,可使W^T*X=0,至關於這根線的這個區分點就找到了。此時這個分界點所對應的橫軸的X值就是W^T*X裏面的X。咱們就能夠用它作分類,能夠這樣表述,腫瘤的大小,小於必定的值的時候,咱們就能夠標籤y賦值爲0,說明它沒有壞。若是腫瘤大小,大於必定值的時候,咱們就就能夠標籤y賦值爲1,說明這個地方有病變。因此若是用多元線性迴歸作分類的話,咱們的步驟是擬合如今已有的點,找到一條擬合的直線,而後咱們找到一個X可使得W^T*X=0的時候,這個X就能夠做爲擬合直線的一個分界點。將來來一條新的數據X的時候,跟已有的x比較,看它是大於仍是小於分界點X來作分類。spa

因此說多元線性迴歸,也能作分類。可是爲何在衆多的算法當中,人們沒有把多元線性迴歸變成一個分類的算法去應用?緣由就由於下面這張圖。3d

這張圖就說出了一個它沒有作一個分類算法的本質緣由,由於它特別容易受到一個離羣值的影響。若是已有的數據點是這張圖裏面全部的X。異常值這個點就會把咱們的整個的擬合的直線給它拉過去。這個時候若是咱們要找到一個W^T*X=0的狀況,咱們找的X就是上圖中這個分界點X了,對於原來的數據來看,就會有兩個數據點分錯了,在圖中已經標明出來。blog

對於一維來講,咱們找的是分界點去分類;對於二維數據來講,咱們找的是一條直線去區分。因此對二維數據來講,若是有一個異常點,這個直線就不太知足了。咱們應該怎麼去辦?實際上第一張圖,分界點X對應的綠色的分界線是挺好的,能區分正確的數據分類。當多了異常值以後,分界點X對應的綠色的分界線是不太好。因此咱們的想法是找到一個好的分界線。element

當多了異常值以後。若是下圖中本來正確的分界點的位置來一條分界線(綠色虛線分界線),其對應的這個分界點會和以前同樣也能將數據分開。get

怎麼才能讓你原來的線性擬合能夠變成分界點在這?去掉離羣值確定能夠,是對數據進行變化。若是是算法變化,假如咱們不用直線去擬合,咱們用曲線去擬合,用什麼樣的曲線能夠解決這個問題?若是是上圖中S形的曲線,這個時候分界點是W^T*X=0,這個值就能夠把你的負例和正例很好的分開。it

因此就會發現,你的模型來擬合已有數據的時候,不能全都用直線,對於這個例子來講是S形的曲線比較好,因而乎人們就琢磨出了另一個曲線,sigmoid曲線,用曲線去擬合已有點,而後找到分界的位置去分類。 所以S曲線就是邏輯迴歸。爲何叫回歸?由於是用S曲線去擬合原來的點,但它的目標是找到一個分界點,對一維來講去作分類而已,因此它叫邏輯迴歸,是去作分類的。

相關文章
相關標籤/搜索