若是您有任何疑問,請在下面發表評論。
大數據部落 -中國專業的第三方數據服務提供商,提供定製化的一站式數據挖掘和統計分析諮詢服務
統計分析和數據挖掘諮詢服務:y0.cn/teradat(諮詢服務請聯繫官網客服)
【服務場景】
科研項目; 公司項目外包;線上線下一對一培訓;數據爬蟲採集;學術研究;報告撰寫;市場調查。
【大數據部落】提供定製化的一站式數據挖掘和統計分析諮詢
歡迎選修咱們的R語言數據分析挖掘必知必會課程!
本文是咱們經過時間序列和ARIMA模型預測拖拉機銷售的製造案例研究示例的延續。您能夠在如下連接中找到之前的部分:微信
第1部分 :時間序列建模和預測簡介app
第2部分:在預測以前將時間序列分解爲解密模式和趨勢post
第3部分:ARIMA預測模型簡介大數據
在本部分中,咱們將使用圖表和圖表經過ARIMA預測PowerHorse拖拉機的拖拉機銷售狀況。咱們將使用前一篇文章中學到的ARIMA建模概念做爲咱們的案例研究示例。但在咱們開始分析以前,讓咱們快速討論一下預測:ui
回到咱們的製造案例研究示例,您能夠幫助PowerHorse拖拉機進行銷售預測,以管理他們的庫存和供應商。本文的如下部分以圖形指南的形式表示您的分析。url
您能夠在如下連接Tractor Sales中找到PowerHorse的MIS團隊共享的數據 。您可能但願分析此數據以從新驗證將在如下部分中執行的分析。spa
如今,您已準備好開始分析,以預測將來3年的拖拉機銷售狀況。.net
首先,您已爲數據準備了時間序列圖。如下是您用於讀取R中的數據並繪製時間序列圖表的R代碼。3d
1日誌
2
3
data = ts(data[,2],start = c(2003,1),frequency = 12)
plot(data, xlab='Years', ylab = 'Tractor Sales')
顯然,上面的圖表有拖拉機銷售的上升趨勢,還有一個季節性組件,咱們已經分析了早期關於時間序列分解的文章。
接下來要作的是使系列靜止,如前一篇文章所述。這是經過使用如下公式對序列進行一階差分來消除上升趨勢:
第一個差別(d = 1)
用於繪製差別系列的R代碼和輸出顯示以下:
4
plot(diff(data),ylab='Differenced Tractor Sales')
好的,因此上面的系列在方差上不是固定的,即隨着咱們向圖表右側移動,圖中的變化也在增長。咱們須要使系列在方差上保持穩定,以經過ARIMA模型產生可靠的預測。
使系列在方差上保持靜止的最佳方法之一是經過對數變換轉換原始系列。咱們將回到咱們原來的拖拉機銷售系列並對其進行變換以使其在變化時保持靜止。如下等式以數學方式表示對數變換的過程:
銷售日誌
如下是與輸出圖相同的R代碼。請注意,因爲咱們在沒有差分的狀況下使用原始數據,所以該系列不是平均值。
五
plot(log10(data),ylab='Log (Tractor Sales)')
如今這個系列在方差上看起來很穩定。
讓咱們看一下對數變換序列的差別圖,以從新確認該序列在均值和方差上是否其實是靜止的。
第1次差別(d = 1)銷售日誌
如下是繪製上述數學方程的R代碼。
6
plot(diff(log10(data)),ylab='Differenced Log (Tractor Sales)')
是的,如今這個系列在均值和方差上看起來都很穩定。這也爲咱們提供了線索,即我或ARIMA模型的集成部分將等於1,由於第一個區別是使系列靜止。
如今,讓咱們建立自相關因子(ACF)和部分自相關因子(PACF)圖來識別上述數據中的模式,這些模式在均值和方差上都是固定的。該想法是識別殘差中AR和MA組分的存在。如下是生成ACF和PACF圖的R代碼。
7
8
由於,在無效區域(虛線水平線)以外的圖中有足夠的尖峯,咱們能夠得出結論,殘差不是隨機的。這意味着AR和MA模型能夠提取殘差中的果汁或信息。此外,在滯後12處的殘差中存在可用的季節性份量(由滯後12處的尖峯表示)。這是有道理的,由於咱們正在分析因爲拖拉機銷售模式而每每具備12個月季節性的月度數據。
R中的預測包中的自動動態功能有助於咱們即時識別最適合的ARIMA模型。如下是相同的代碼。請在執行此代碼以前在R中安裝所需的「預測」包。
10
11
12
require(forecast)
ARIMAfit = auto.arima(log10(data), approximation=FALSE,trace=FALSE)
summary(ARIMAfit)
時間序列:log 10(拖拉機銷售)最佳版型:ARIMA(0,1,1)(0,1,1)[12] MA1SMA1係數:-0.4047-0.5529SE0.08850.0734對數似然= 354.4AIC = -702.79AICC = -702.6BIC = -694.17
基於Akaike信息準則(AIC)和貝葉斯信息準則(BIC)值選擇最佳擬合模型。咱們的想法是選擇具備最小AIC和BIC值的模型。咱們將在下一篇文章中探討有關AIC和BIC的更多信息。在R中開發的最佳擬合模型的AIC和BIC值顯示在如下結果的底部:
正如預期的那樣,咱們的模型具備等於1的I(或積分)份量。這表示階數1的差分。在上述最佳擬合模型中存在滯後12的附加差分。此外,最佳擬合模型具備1階的MA值。此外,存在具備階數1的滯後12的季節性MA。
下一步是經過上述模型預測將來3年(即2015年,2016年和2017年)的拖拉機銷量。如下R代碼爲咱們完成了這項工做。
13
14
15
16
17
18
19
par(mfrow = c(1,1))
lines(10^(pred$pred-2*pred$se),col='orange')
如下是拖拉機銷售預測值爲藍色的輸出。此外,預測偏差的範圍(即標準誤差的2倍)在預測藍線的兩側顯示橙色線。
如今,長達3年的預測是一項雄心勃勃的任務。這裏的主要假設是時間序列中的下劃線模式將繼續保持與模型中預測的相同。短時間預測模型,好比幾個營業季度或一年,一般是一個合理準確的預測。像上述那樣的長期模型須要按期評估(好比6個月)。咱們的想法是將可用的新信息與模型中的時間推移相結合。
最後,讓咱們建立一個ACF和PACF的最佳擬合ARIMA模型殘差的圖,即ARIMA(0,1,1)(0,1,1)[12]。如下是相同的R代碼。
20
pacf(ts(ARIMAfit$residuals),main='PACF Residual')
因爲ACF和PACF圖的無效區域以外沒有尖峯,咱們能夠得出結論,殘差是隨機的,沒有信息或果汁。所以咱們的ARIMA模型運行良好。
大數據部落 -中國專業的第三方數據服務提供商,提供定製化的一站式數據挖掘和統計分析諮詢服務
統計分析和數據挖掘諮詢服務:y0.cn/teradat(諮詢服務請聯繫官網客服)
【服務場景】
科研項目; 公司項目外包;線上線下一對一培訓;數據爬蟲採集;學術研究;報告撰寫;市場調查。
【大數據部落】提供定製化的一站式數據挖掘和統計分析諮詢
歡迎選修咱們的R語言數據分析挖掘必知必會課程!