[TOC]多線程
對於非線性的數據分類,若是咱們使用線性模型,就會使得Ein很大,分得很差。spa
如今咱們考慮如何用二次方程(圓的方式)來進行separate: 咱們可使用半徑平方爲0.6的圓能夠將它分開 。線程
這裏咱們進行非線性的變換,實現座標系的變換。從x空間變到z空間。在x系裏面圓圈可分的狀況在z系裏面變得線性可分了。在x系裏面能夠用圓分開則在z系裏面必定能夠線性可分。rem
可是在z空間裏面能夠用直線分開的情形,在x空間裏面就多是圓、橢圓、雙曲線等狀況,因此說在z空間裏面的直線在x空間裏面對應的是特殊二次曲線(圓心在座標原點),三個參數。it
把全部的二次項、全部的一次項和常數項都要包含進來,這樣在Z空間裏面的直線對應x空間的二次hypothesis
這個權值W須要6個參數ast
因此咱們若是可以在z空間裏面找到好的線性分割,就能在x空間裏找到好的二次曲線分割。class
首先把原始在x空間的數據變換到z空間的數據。變量
在z空間中獲得好的線性感知機。im
在z空間對獲得的模型g進行反變換獲得x空間應該有的二次曲線模型。數據
而實際上第三步並非取逆變換,而是考察一個點在x空間的分類的時候,把這個點先轉換到z空間,而後看它是哪一個分類,咱們就知道它在x空間裏面應該是哪一個分類了。
以前從原始特徵用領域知識變換到具體特徵就是這樣。
從d維度特徵的二次x空間轉化爲一次z空間是多少個維度。
d維Q次特徵空間轉化到1次空間時的特徵維度是 $$ C_{Q+d}^{d} $$
證實:d維Q次特徵空間轉化到1次空間時的特徵維度是$$ C_{Q+d}^{d} $$
能夠把問題轉化爲求d個變量組成的Q次多線程裏面,各類子項總共有多少個。轉化爲相同的問題就是:
把k個相同的物體分給d我的,不必定每一個人都分到,也不必定分完,問有多少種分法?
那麼這個問題是比較複雜的,咱們高中的時候學的問題是下面這個類型的:
問題1. 把k個相同物體分給d我的,每人最少1個,要求分完,那麼有幾種分法?
設第i我的分得$$ x_i $$個物體,則$$ 0 < x_i < k $$ 用咱們熟悉的插板法,在k-1個間隙裏面插入d-1個板(分紅d份),分法有
$$ C_{(k-1)}^{(d-1)} $$
問題2. 把k個相同的物體分給d我的,不必定每一個人都分到,但物體必須分完,問有多少種分法?
設第i我的分得$$ x_i $$個物體,則$$ 0leqslant x_i leqslant k $$,咱們能夠把它轉化一下
$$ x_1+x_2+...+x_d = k rightleftharpoons (x_1+1)+(x_2+1)+(x_3+1)+...+(x_d+1) = k+d $$
$$ 0leqslant x_i leqslant k rightleftharpoons 1 leqslant x_i+1 leqslant k+1 $$
能夠認爲把k+d個物體分給d我的,使用插板法 結果爲
$$ C_{k+d-1}^{d-1} $$
到這裏咱們就能夠把咱們的問題轉化爲這裏面相同的問題了,不分完能夠理解爲還有一個潛在的第k+1我的,把最後剩下的物體分給它。因此這個問題就轉化爲 把k個物體分給d+1我的,不必定每一個人都分到,但物體必須分完。也轉化爲把k+d+1個物體分給d+1我的,每人必須分到,物體必須分完,因此結果爲 $$ C_{k+d}^{d} $$
應該選擇怎樣的模型。
模型越複雜 $$ E_{in} $$越小,若是你選擇的模型的維度比較高,會使得$$ E_{in} $$ 會使得 $$E_{out} / E_{in}$$ 差異會很遠