Dotnet core基於ML.net的銷售數據預測實踐

ML.net已經進到了1.5版本。做爲Microsoft官方的機器學習模型,你不打算用用?css

1、前言

ML.net可讓咱們很容易地在各類應用場景中將機器學習加入到應用程序中。這是這個框架很重要的一點。html

經過ML.net,咱們可使用手中的可用數據,進行預測、分析、檢測,而不須要進行過於複雜的編程。git

ML.net的核心,一樣是機器學習模型。它採用一樣的步驟,經過指定算法來訓練模型,將輸入數據轉換爲所需的預測數據。github

更重要的是,ML.net基於.NET Core,這讓它能夠很是簡單地跨平臺,在Windows、Linux、MacOS上運行,併成爲咱們服務端的一部份內容。web

回到今天的主題。算法

咱們用實際的例子,完成一個經過歷史銷售數據進行單變量時序分析(單譜分析),以預測將來銷量的需求。數據庫

    爲了防止不提供原網址的轉載,特在這裏加上原文連接:http://www.javashuo.com/article/p-bhtbmdaf-nt.html編程

2、開發環境&基礎工程

這個Demo的開發環境是:Mac + VS Code + Dotnet Core 3.1.2。json

$ dotnet --info
.NET Core SDK (reflecting any global.json):
 Version:   3.1.201
 Commit:    b1768b4ae7

Runtime Environment:
 OS Name:     Mac OS X
 OS Version:  10.15
 OS Platform: Darwin
 RID:         osx.10.15-x64
 Base Path:   /usr/local/share/dotnet/sdk/3.1.201/

Host (useful for support):
  Version: 3.1.3
  Commit:  4a9f85e9f8

.NET Core SDKs installed:
  3.1.201 [/usr/local/share/dotnet/sdk]

.NET Core runtimes installed:
  Microsoft.AspNetCore.App 3.1.3 [/usr/local/share/dotnet/shared/Microsoft.AspNetCore.App]
  Microsoft.NETCore.App 3.1.3 [/usr/local/share/dotnet/shared/Microsoft.NETCore.App]

首先,在這個環境下創建工程:c#

  1. 建立Solution
% dotnet new sln -o demo
The template "Solution File" was created successfully.
  1. 此次,咱們用Console建立工程
cd demo
% dotnet new console -o demo
The template "Console Application" was created successfully.

Processing post-creation actions...
Running 'dotnet restore' on demo/demo.csproj...
  Determining projects to restore...
  Restored demo/demo.csproj (in 143 ms).

Restore succeeded.
  1. 把工程加到Solution中
% dotnet sln add demo/demo.csproj

基礎工程搭建完成。

3、引入ML.net庫

爲了使用ML.net,咱們須要引入Microsoft.ML庫:

cd demo
% dotnet add package Microsoft.ML

除此以外,本文是基於時序的預測,還須要引入時序庫Microsoft.ML.TimeSeries

% dotnet add package Microsoft.ML.TimeSeries

咱們今天用到的算法是單譜分析(SSA)。SSA會將時序分解爲一組主要成分, 並將這些成分解釋爲信號,對應於趨勢、噪音、季節性及許多其餘的因素,而後從新構建這些成分,用來預測將來某個時間的值。

4、準備數據

爲了這個DEMO,我準備了一個包含整年365天實際銷售金額的數據。

其中這個數據又分爲了兩部分,第一部分是前11個月的數據,用來作訓練,第二部分是12月一個月的數據,用來評估模型。

兩部分數據的連接以下:訓練數據評估數據

兩個數據文件均爲CSV文件,數據結構徹底相同,下面是一段內容範例:

2018-12-21,17959.0
2018-12-22,19537.03
2018-12-23,20068.0
2018-12-24,20013.0
2018-12-25,21005.0
2018-12-26,16876.0
2018-12-27,15150.0
2018-12-28,15669.0
2018-12-29,25048.0
2018-12-30,25236.0

5、代碼開發

  1. 準備一個輸入模型ModelInput
public class ModelInput
{

    [LoadColumn(0)]
    public DateTime action_time { get; set; }
    [LoadColumn(1)]
    public float count { get; set; }
}

這個模型對應數據文件的結構,分兩個字段,第一個是日期,第二個是對應的銷售金額。

  1. 準備另外一個輸出模型ModelOutput
public class ModelOutput
{

    public float[] forecasted_count { get; set; }
    public float[] lower_count { get; set; }
    public float[] upper_count { get; set; }
}

這個模型跟隨預測結果的輸出,其中:

  • forecasted_count - 預測時間段內的預測值
  • lower_count - 預測時間段內預測值的下限
  • upper_count - 預測時間段內預測值的上限

  1. 初始化機器學習的實例
MLContext mlContext = new MLContext();

執行全部 ML.NET 操做都是從MLContext類開始,初始化 MLContext將建立一個新的 ML.net 環境,並在模型建立工做流對象之間共享該環境。

  1. 加載數據

ML.net有多種數據的加載方式,能夠經過文件、數據庫、JSON/XML、內存中加載數據,甚至能夠用自定義的數據庫鏈接加載數據。

本文的DEMO中,數據在CSV文件中,因此,咱們採用下面的方式加載:

static readonly string _data1Path = Path.Combine(Environment.CurrentDirectory, "data1.csv");
static readonly string _data2Path = Path.Combine(Environment.CurrentDirectory, "data2.csv");

static void Main(string[] args)
{
    MLContext mlContext = new MLContext();

    IDataView data1View = mlContext.Data.LoadFromTextFile<ModelInput>(_data1Path, separatorChar: ',', hasHeader: false);
    IDataView data2View = mlContext.Data.LoadFromTextFile<ModelInput>(_data2Path, separatorChar: ',', hasHeader: false);
}

IDataView是數據的承載空間。

  1. 定義時序分析管道
var forecastingPipeline = mlContext.Forecasting.ForecastBySsa(
    outputColumnName: "forecasted_count",
    inputColumnName: "count",
    windowSize: 7,
    seriesLength: 30,
    trainSize: 334,
    horizon: 7,
    confidenceLevel: 0.95f,
    confidenceLowerBoundColumn: "lower_count",
    confidenceUpperBoundColumn: "upper_count");

前面有說過,咱們採用單譜分析,因此代碼中咱們選擇了mlContext.Forecasting.ForecastBySsa

解釋一下這裏面的幾個參數:

  • trainSize - 數據樣本的數量,也就是訓練數據的行數(在這個文件中,一行是一個數據樣本,共334行)
  • seriesLength - 從數據樣本按時序採樣時的間隔,這裏是30天
  • windowSize - 樣本週期的天數,這裏是7天
  • horizon - 預測結果的天數
  • confidenceLevel - 上下限的可信度。預測屬於合理猜想,不老是徹底準確。
  • 其它幾個參數,對應輸入輸出模型的字段名

  1. 訓練模型

管道定義完成,數據加載完成,下面要進行數據訓練。

SsaForecastingTransformer forecaster = forecastingPipeline.Fit(data1View);

跟隨上一節,管道是單譜管道,因此訓練也是單譜訓練SsaForecastingTransformer

程序執行到這裏,數據訓練完成。

  1. 模型評估

模型評估不是必須環節。

模型評估的意義在於:經過評估模型的性能,來調整管道的參數,以達到最佳的預測效果。

模型評估也有多種方式。在這裏,咱們採用平均絕對偏差均方根偏差來作評估依據。

static void Evaluate(IDataView testData, ITransformer model, MLContext mlContext)
{
    IDataView predictions = model.Transform(testData);

    IEnumerable<float> actual =
        mlContext.Data.CreateEnumerable<ModelInput>(testData, true)
            .Select(p => p.count);

    IEnumerable<float> forecast =
        mlContext.Data.CreateEnumerable<ModelOutput>(predictions, true)
            .Select(p => p.forecasted_count[0]);

    var metrics = actual.Zip(forecast, (actualValue, forecastValue) => actualValue - forecastValue);

    var MAE = metrics.Average(error => Math.Abs(error));
    var RMSE = Math.Sqrt(metrics.Average(error => Math.Pow(error, 2)));

    Console.WriteLine("評估結果");
    Console.WriteLine("---------------------");
    Console.WriteLine($"平均絕對偏差: {MAE:F3}");
    Console.WriteLine($"均方根偏差: {RMSE:F3}\n");
}

在這個方法中,咱們取評估數據的實際值actual和經過訓練數據生成的預測值forecast,計算兩個偏差並輸出。

Main中調用此方法:

static void Main(string[] args)
{
        /* 這兒是前邊訓練的代碼,略過 */

        Evaluate(data2View, forecaster, mlContext);
}
static void Evaluate(IDataView testData, ITransformer model, MLContext mlContext)
{
      /* 這兒是評估模型的方法,上面有,略過 */
}

輸出結果相似於如下內容:

評估結果
---------------------
平均絕對偏差: 23.442
均方根偏差: 174.236

兩個指標:

  • 平均絕對偏差 - 度量預測與實際值之間的接近程度。 此值介於 0 到無限大之間。 越接近 0,模型的質量越好。
  • 均方根偏差 - 彙總模型中的錯誤。 此值介於 0 到無限大之間。 越接近 0,模型的質量越好。

  1. 預測

訓練模型調整到滿意後,便可開始預測的工做:

var forecastEngine = forecaster.CreateTimeSeriesEngine<ModelInput, ModelOutput>(mlContext);
ModelOutput forecast = forecastEngine.Predict();

這兩行代碼,在內存中加載前邊訓練好的模型,並進行預測操做。預測數據的結果放在forecast中。

對應於分析管道定義中的horizon,預測數據包含7天的預測結果。

  1. 預測結果輸出

放在forecast中的數據,對應模型ModelOutput,能夠用在任何地方。

在本文中,咱們直接顯示到Console

IEnumerable<string> forecastOutput =
    mlContext.Data.CreateEnumerable<ModelInput>(data2View, reuseRowObject: false)
        .Take(7)
        .Select((ModelInput data, int index) =>
        {
            string action_date = data.action_time.ToString("yyyy-MM-dd");
            float actual_count = data.count;
            float lowerEstimate = Math.Max(0, forecast.lower_count[index]);
            float estimate = forecast.forecasted_count[index];
            float upperEstimate = forecast.upper_count[index];
            return $"日期: {action_date}\n" +
            $"實際值: {actual_count}\n" +
            $"預測下限估值: {lowerEstimate}\n" +
            $"預測估值: {estimate}\n" +
            $"預測上限估值: {upperEstimate}\n";
        });

Console.WriteLine("預測結果");
Console.WriteLine("---------------------");
foreach (var prediction in forecastOutput)
{
    Console.WriteLine(prediction);
}

運行結果相似於如下內容:

預測結果
---------------------
日期: 2018-12-01
實際值: 24566.08
預測下限估值: 16791.379
預測估值: 20394.115
預測上限估值: 23996.852

完成!

6、延伸內容

ML.net包含了不少機器學習的內容。其中,我本身認爲時序預測是用途很廣的一個部分,能夠用在

  • 銷售預測
  • 庫存預警
  • 活動策劃輔助

以及其它諸如天氣、股票、人口等諸多內容上,依靠過去和如今的數據,分析二者之間的關係,而後利用獲得的這個關係去預測將來的數據。

所以,在這個分類中,個人第一篇文章就寫了時序預測。

機器學習,核心是各類算法,而算法的基礎是一類數學。這是一個很高的坎。刷算法,線性的部分還好,一旦到了冪次或矩陣,沒有正統的學習,是很難有突破的。而即使刷通了,也只是皮毛性的理解,距離創造算法的大神,還有很長的距離。

因此,退而求其次,對不少人而言,與其花大功夫去研究算法,不如多研究下如何能把現有的算法或工具用好。

還有,在應用中,你能用機器學習來預測銷量、預測庫存,有沒有很自豪?是否是很高大上?

(全文完)

本文的對應代碼,在https://github.com/humornif/Demo-Code/tree/master/0013/demo

 


 

微信公衆號:老王Plus

掃描二維碼,關注我的公衆號,能夠第一時間獲得最新的我的文章和內容推送

本文版權歸做者全部,轉載請保留此聲明和原文連接

相關文章
相關標籤/搜索