《python機器學習—預測分析核心算法》:構建預測模型的通常流程

參見原書1.5節算法

構建預測模型的通常流程數據結構

問題的平常語言表述->問題的數學語言重述
重述問題、提取特徵、訓練算法、評估算法機器學習

熟悉不一樣算法的輸入數據結構:
1.提取或組合預測所需的特徵
2.設定訓練目標
3.訓練模型
4.評估模型在訓練數據上的性能表現性能

機器學習:
開發一個能夠實際部署的模型的所有過程,包括對機器學習算法的理解和實際的操做學習

一般,有很是切實的緣由,致使某些算法被常常使用,瞭解背後的緣由測試

(1)構造一個機器學習問題
審視數據集中的數據,肯定須要作何種形式的預測
如,這些數據表明什麼?如何與預測任務關聯起來?優化

1.「更好的結果」->可測量可優化的具體目標
2.收集數據,表示爲特徵的矩陣
3.目標:已知正確的數據結果用於訓練spa

<------問題重構---------<-
               | |
問題的定性描述->問題的數學描述->模型訓練與性能評估->模型部署開發

(2)特徵提取和特徵工程
特徵提取: (將決定哪些特徵能夠用來預測目標)
把一個自由形式的各類數據(如一個文檔中的字詞)轉換爲行、列形式的數字的過程文檔

特徵工程:
對特徵進行整理組合,以達到更富有信息量的過程

算法,提供每一個特徵對最終預測結果貢獻的度量
對特徵打分,標識重要性

注意:數據準備和特徵工程 估計會佔開發一個機器學習模型80%~90%的時間

一般訓練100~5000個不一樣的模型,而後選擇與問題、數據集最匹配的模型

(3)肯定訓練後模型的性能
測試集:留出一部分數據,用於測試模型的性能

相關文章
相關標籤/搜索