《python機器學習—預測分析核心算法》：構建預測模型的通常流程

時間 2020-05-20

標籤 python 機器學習預測分析核心算法構建模型通常流程欄目 Python 简体版

原文原文鏈接

參見原書1.5節算法

構建預測模型的通常流程數據結構

問題的平常語言表述->問題的數學語言重述
重述問題、提取特徵、訓練算法、評估算法機器學習

熟悉不一樣算法的輸入數據結構：
1.提取或組合預測所需的特徵
2.設定訓練目標
3.訓練模型
4.評估模型在訓練數據上的性能表現性能

機器學習：
開發一個能夠實際部署的模型的所有過程，包括對機器學習算法的理解和實際的操做學習

一般，有很是切實的緣由，致使某些算法被常常使用，瞭解背後的緣由測試

(1)構造一個機器學習問題
審視數據集中的數據，肯定須要作何種形式的預測
如，這些數據表明什麼？如何與預測任務關聯起來？優化

1.「更好的結果」->可測量可優化的具體目標
2.收集數據，表示爲特徵的矩陣
3.目標：已知正確的數據結果用於訓練spa

<------問題重構---------<-
| |
問題的定性描述->問題的數學描述->模型訓練與性能評估->模型部署開發

(2)特徵提取和特徵工程
特徵提取： (將決定哪些特徵能夠用來預測目標)
把一個自由形式的各類數據(如一個文檔中的字詞)轉換爲行、列形式的數字的過程文檔

特徵工程：
對特徵進行整理組合，以達到更富有信息量的過程

算法，提供每一個特徵對最終預測結果貢獻的度量
對特徵打分，標識重要性

注意：數據準備和特徵工程估計會佔開發一個機器學習模型80%~90%的時間

一般訓練100~5000個不一樣的模型，而後選擇與問題、數據集最匹配的模型

(3)肯定訓練後模型的性能
測試集：留出一部分數據，用於測試模型的性能

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。