【問題以下】算法
像房價預測這樣的表格類數據迴歸問題,咱們當時的假設:「函數是線性的,也就是13個特徵和房價之間的關係是一次方關係。」結果證實,效果還不錯。而後,你好,我好,你們都好!框架
那麼問題來了:機器學習
一、你是如何提早知道他們是線性關係的?ide
二、進一步說,在作曲線擬合時,假設函數是如何肯定的?函數
【參考思路】工具
下面,我先拋磚,歡迎你們拍磚:學習
首先,沒有辦法能直接得出曲線是什麼樣的,試想若是能的話,咱們還須要機器學習嗎?直接用基於規則的算法,豈不是更高效?人工智能
其次,在實際工做中,每每是靠合理的「猜」來進行不斷的嘗試,最後達到一個效率和準確率的折中。it
通常作法:class
一、先作數據的歸一化,統一量綱,讓全部特徵在進行訓練前「人人平等」;
二、若是能夠的話,能夠用一些降維算法(好比PCA,t-SNE)來把特徵降到2維,這樣就能夠利用Matplotlib等可視化工具來畫一個三維圖像,協助判斷一下曲線的走勢;
三、進一步說,能夠簡單粗暴直接上,先用線性迴歸來嘗試,看效果;若是不行,那就再試二次方迴歸;還不行,就再試三次方迴歸 ... 你們還記得泰勒級數或是泰勒公式吧?他老人家已經證實了,只要階數夠高,無論你多複雜,我均可以擬合個差很少...
四、整個過程看上去很複雜,其實sklearn的多項式迴歸,很簡單,幾行代碼就搞定。這個時候,你應該會很是感謝那些開源框架的做者們,讓咱們能夠垂手可得的驗證咱們的想法 ...
實踐證實:線性迴歸這種既簡單又高效的算法,是最經常使用的,不少實際問題均可以搞定,因此,從線性迴歸開始嘗試,沒毛病 ...
歡迎拍磚!!!
若是喜歡個人文章歡迎一塊兒探討: