機器學習入門

原文轉自:http://longriver.me/?p=23html

machine learning 的一點基本知識,三個基本元素:訓練集(training set)、模型(model)、測試集(test set)。還記得數理統計上的線性迴歸嗎?根據已有的數據,設定懲罰函數,對線性函數進行參數估計,獲得的線性函數就是model,而後在測試集上驗證model的預測準確性。很簡單。當今互聯網公司大量使用machine learning方法。python

最簡單的例子,使用google搜索,輸入china stroy,它會自動糾正你是否是搜索china story。後臺的原理是:google儲備了大量的先驗數據(大量的文本),story出現機率遠遠大於stroy,並且和china一塊兒出現的狀況下,更是story佔據了絕大多數,因此根據bayes估計,confidence大於某個閾值的話就會幫助用戶自動糾錯,這種糾錯是很是靠譜的,由於創建在大量可靠的數據之上模擬google的spelling corrector其實只須要python短短的21行代碼。http://norvig.com/spell-correct.html。其實當今的機器學習,主流是基於統計的,呵呵,用咱們的話通俗的講就是數聽說明一切,用事實說話,前車可鑑後事之師。機器學習

全文請到http://longriver.me/?p=23ide

相關文章
相關標籤/搜索