在如下主題中,咱們將回顧有助於分析時間序列數據的技術,即遵循非隨機順序的測量序列。與在大多數其餘統計數據的上下文中討論的隨機觀測樣本的分析不一樣,時間序列的分析基於數據文件中的連續值表示以等間隔時間間隔進行的連續測量的假設。算法
本節描述的方法的詳細討論能夠在Anderson(1976),Box and Jenkins(1976),Kendall(1984),Kendall and Ord(1990),Montgomery,Johnson和Gardiner(1990),Pankratz(1983)中找到。 ),Shumway(1988),Vandaele(1983),Walker(1991)和Wei(1989)。ide
時間序列分析有兩個主要目標:svg
(a)肯定觀察序列所表明的現象的性質。函數
(b)預測(預測時間序列變量的將來值)。工具
這兩個目標都要求識別觀察到的時間序列數據的模式,而且或多或少地正式描述。一旦模式創建,咱們就能夠將其與其餘數據進行解釋和整合(即,在咱們的調查現象理論中使用它,例如季節性商品價格)。不管咱們的理解深度和咱們對該現象的解釋(理論)的有效性,咱們均可以推斷出已識別的模式以預測將來事件。測試
與大多數其餘分析同樣,在時間序列分析中,假設數據由系統模式(一般是一組可識別組件)和隨機噪聲(錯誤)組成,這一般使模式難以識別。大多數時間序列分析技術涉及過濾噪聲的某種形式,以使圖案更加突出。網站
大多數時間序列模式能夠用兩個基本類別的組件來描述:趨勢和季節性。前者表明通常的系統線性或(最多見)非線性成分,其隨時間變化而且在咱們的數據捕獲的時間範圍內不重複或至少不重複(例如,平臺隨後是指數生長期)。後者可能具備正式類似的性質(例如,平穩期隨後呈指數增加期),然而,隨着時間的推移,它在系統間隔中重複。這兩個通用類別的時間序列組件能夠共存於現實數據中。例如,公司的銷售額能夠快速增加多年,但仍然遵循一致的季節性模式(例如,12月份每一年銷售額的25%,而8月份僅爲4%)。spa
這種通常模式在「經典」 G系列數據集(Box和Jenkins,1976,第531頁)中有很好的說明,表明了從1949年到1960年連續12年的月度國際航空公司乘客總數(以千計)(見示例數據文件)G.sta和上圖)。若是繪製航空公司乘客總數的連續觀測值(月份),則會出現明顯的線性趨勢,代表航空業多年來保持穩定增加(1960年乘客人數比1949年增長約4倍)。同時,每個月的數字將遵循幾乎相同的模式(例如,假期期間旅行的人數比一年中的任何其餘時間都多)。該示例數據文件還示出了時間序列數據中很是常見的通常類型的模式,其中季節變化的幅度隨着整體趨勢而增長(即,方差與系列的片斷上的平均值相關)。這種模式稱爲乘法季節性代表季節變化的相對幅度隨時間變化是恆定的,所以它與趨勢有關。翻譯
沒有通過驗證的「自動」技術來識別時間序列數據中的趨勢份量; 然而,只要趨勢是單調的(持續增長或減小),那麼部分數據分析一般不是很困難。若是時間序列數據包含至關大的偏差,那麼趨勢識別過程的第一步就是平滑。設計
平滑。平滑老是涉及某種形式的局部數據平均,使得各個觀察的非系統成分相互抵消。最多見的技術是移動平均平滑,它用n個周圍元素的簡單或加權平均值替換系列的每一個元素,其中n平滑「窗口」的寬度(見Box&Jenkins,1976; Velleman&Hoaglin,1981)。可使用中位數而不是手段。與移動平均平滑相比,中值的主要優勢是其結果不受異常值的誤差(在平滑窗口內)。所以,若是數據中存在異常值(例如,因爲測量偏差),則中值平滑一般比基於相同學口寬度的移動平均產生更平滑或至少更「可靠」的曲線。中值平滑的主要缺點是,在沒有明顯的異常值的狀況下,它可能產生比移動平均值更多的「鋸齒狀」曲線,而且不容許加權。
在相對較不常見的狀況下(在時間序列數據中),當測量偏差很是大時,可使用距離加權最小二乘平滑或負指數加權平滑技術。全部這些方法都會濾除噪聲並將數據轉換爲相對不受異常值影響的平滑曲線(有關詳細信息,請參閱每一個方法的相應章節)。具備相對較少且系統分佈的點的系列能夠用雙三次樣條平滑。
適合功能。許多單調的時間序列數據能夠經過線性函數充分近似; 若是存在明顯的單調非線性份量,則首先須要對數據進行變換以消除非線性。一般可使用對數,指數或(不太常見)多項式函數。
季節依賴性(季節性)是時間序列模式的另外一個通用組成部分。上述航空公司乘客數據的例子說明了這個概念。它被正式定義爲系列的每一個第i個元素和第(ik)個元素(Kendall,1976)之間的階數k的相關依賴性,而且經過自相關(即,兩個術語之間的相關性)來測量; k一般稱爲滯後。若是測量偏差不是太大,則能夠在系列中視覺識別季節性,做爲重複每一個k元素的模式。
自相關相關圖。能夠經過相關圖檢查時間序列的季節性模式。相關圖(自相關圖)以圖形和數字方式顯示自相關函數(ACF),即,在指定的滯後範圍(例如,1到30)內的連續滯後的串行相關係數(及其標準偏差)。每一個滯後的兩個標準偏差的範圍一般在相關圖中標出,但一般自相關的大小比其可靠性更有意義(參見基本概念),由於咱們一般只對很是強(所以很是重要)的自相關感興趣。
檢查相關圖。在檢查相關圖時,您應該記住,連續滯後的自相關正式依賴。請考慮如下示例。若是第一個元素與第二個元素密切相關,第二個元素與第二個元素密切相關,那麼第一個元素也必須與第三個元素有些相關,等等。這意味着在刪除第一個元素後,序列依賴關係的模式可能會發生很大變化自相關(即差分系列後滯後爲1)。
偏自相關。檢查序列依賴關係的另外一個有用方法是檢查偏自相關函數(PACF) - 自相關的擴展,其中依賴於中間元素(內部元素)滯後)被刪除。換句話說,偏自相關相似於自相關,除了在計算它時,與滯後內全部元素的(自動)相關性被偏離(Box&Jenkins,1976;另見McDowall,McCleary,Meidinger,&Hay, 1980年)。若是指定滯後1(即,滯後內沒有中間元素),則偏自相關等效於自相關。從某種意義上說,偏自相關爲各個滯後提供了「更清晰」的串行依賴關係圖(不會被其餘串行依賴關係混淆)。
刪除串行依賴。能夠經過對系列進行差分來消除對k的特定滯後的串行依賴性,即將該系列的每一個第i個元素轉換爲與第(ik)個元素的差別。這種轉變有兩個主要緣由。
首先,咱們能夠肯定系列中季節性依賴的隱藏性質。請記住,正如前一段所述,連續滯後的自相關是相互依賴的。所以,刪除一些自相關將改變其餘自動相關性,也就是說,它可能會消除它們,或者它可能使其餘一些季節性更明顯。
消除季節性依賴性的另外一個緣由是使系列穩定,這是ARIMA和其餘技術所必需的。
能夠拆分紅AR MA I三個部分來說,首先是AR(自迴歸模型)
P階其實就是當前值和歷史前幾個值有關,若是p等於1就有前一個值有關,等於2與前兩個值有關,而後進行累加,求解參數。
MA
ARMA
I
表示差分,經過差分來平穩化
在識別時間序列數據模式中討論的建模和預測程序涉及過程數學模型的知識。然而,在現實生活中的研究和實踐中,數據模式尚不清楚,個別觀察涉及至關大的偏差,咱們仍然須要不只揭示數據中隱藏的模式,還須要生成預測。Box和Jenkins(1976)開發的ARIMA方法容許咱們這樣作; 它在許多領域得到了極大的普及,研究實踐證明了它的力量和靈活性(Hoff,1983; Pankratz,1983; Vandaele,1983)。然而,因爲其強大的功能和靈活性,ARIMA是一項複雜的技術; 它不易使用,須要大量的經驗,雖然它常常產生使人滿意的結果,但這些結果取決於研究人員的專業水平(Bails&Peppers,1982)。如下部分將介紹此方法的基本概念。對於那些對應用導向(非數學),ARIMA方法介紹感興趣的人,咱們推薦McDowall,McCleary,Meidinger和Hay(1980)。
自迴歸過程。大多數時間序列由連續依賴的元素組成,在這種意義上,您能夠從特定的,時間滯後的(先前的)元素中估計描述系列的連續元素的係數或係數集。這能夠總結在等式中:x t = +
1 * x (t-1) +
2 * x (t-2) +
3 * x (t-3) + ... +
是一個常數(截距),和
1,
2,
3 是自迴歸模型參數。
用語言來講,每一個觀察由隨機偏差份量(隨機衝擊)和先前觀察的線性組合組成。
可變性要求。沒有太多細節,移動平均過程和自迴歸過程之間存在「二元性」(例如,參見Box&Jenkins,1976; Montgomery,Johnson,&Gardiner,1990),即上面的移動平均方程能夠被重寫(反轉)成自迴歸形式(無限次序)。然而,相似於上述平穩性條件,這隻能在移動平均參數遵循某些條件時,即,若是模型是可逆的狀況下才能進行。不然,序列將不會穩定。
自迴歸移動平均模型。Box和Jenkins(1976)引入的通常模型包括自迴歸和移動平均參數,並明確包括模型公式中的差分。具體而言,模型中的三種參數是:自迴歸參數(p),差分經過次數(d)和移動平均參數(q)。在Box和Jenkins介紹的符號中,模型總結爲ARIMA(p,d,q); 所以,例如,描述爲(0,1,2)的模型意味着它包含0(零)自迴歸(p)參數和2個移動平均值(q)在一次差別以後爲該系列計算的參數。
識別。如前所述,ARIMA的輸入序列須要是固定的,也就是說,它應該具備恆定的均值,方差和隨時間變化的自相關性。所以,一般首先須要對系列進行區分,直到它靜止爲止(這一般還須要對數據進行對數轉換以穩定方差)。爲了實現平穩性,系列須要區分的次數反映在d中參數(見前一段)。爲了肯定必要的差分水平,您應該檢查數據和自相關圖的圖。水平的顯着變化(強烈的向上或向下變化)一般須要一階非季節性(滯後= 1)差別; 坡度的強烈變化一般須要二階非季節差分。季節性模式須要各自的季節差別(見下文)。若是估計的自相關係數在較長的滯後處緩慢降低,則一般須要一階差分。可是,您應該記住,某些時間序列可能須要不多或不須要差分,而且差別系列會產生較不穩定的係數估計值。
在這個階段(一般稱爲識別階段,見下文),咱們還須要肯定有多少自迴歸(p)和移動平均(q)參數是必要的,以產生一個有效但仍然簡約的過程模型(簡約意味着它在全部適合數據的模型中具備最少的參數和最大的自由度。在實踐中,p或q參數的數量不多須要大於2(更具體的建議見下文)。
估計和預測。在下一步(估計),估計參數(使用函數最小化過程,見下文;有關最小化過程的更多信息,請參見非線性估計),以便最小化殘差平方和。在最後階段(預測)中使用參數的估計來計算序列的新值(超出輸入數據集中包括的那些值)和那些預測值的置信區間。對變換(差分)數據執行估計過程; 在生成預測以前,須要整合該系列(積分是差分的倒數),以便預測以與輸入數據兼容的值表示。該自動積分特徵由方法名稱中的字母I表示(ARIMA =自動迴歸綜合移動平均值)。
ARIMA模型中的常量。除了標準的自迴歸和移動平均參數以外,ARIMA模型還能夠包括常數,如上所述。(統計上顯着的)常數的解釋取決於適合的模型。具體來講,(1)若是模型中沒有自迴歸參數,則常數的指望值是系列的均值; (2)若是序列中存在自迴歸參數,則常數表示截距。若是序列不一樣,則常數表示差別序列的均值或截距; 例如,若是序列差別一次,而且模型中沒有自迴歸參數,則常量表示差別序列的均值,所以無差異序列的線性趨勢斜率。
要估計的參數數量。 在估計開始以前,咱們須要決定(肯定)要估算的ARIMA參數的具體數量和類型。識別階段使用的主要工具是系列圖,自相關(ACF)和部分自相關(PACF)的相關圖。這個決定並不簡單,在不太典型的狀況下,不只須要經驗,還須要對替代模型(以及ARIMA的技術參數)進行大量實驗。然而,大多數經驗時間序列模式可使用基於自相關圖(ACF)和部分自相關圖(PACF)的形狀識別的5個基本模型中的一個來充分近似。如下簡要總結基於Pankratz(1983)的實際建議; 有關其餘實用建議,另見Hoff(1983),McCleary和Hay(1980),McDowall,McCleary,Meidinger和Hay(1980),以及Vandaele(1983)。另外,請注意,因爲每種參數(待估計)的數量幾乎不會大於2,所以在相同數據上嘗試替代模型一般是切實可行的。
季節性模特。乘法季節性ARIMA是前面段落中引入的方法的推廣和擴展,其中一個模式隨着時間的推移在季節性重複。除了非季節性參數以外,還須要估算指定滯後的季節性參數(在識別階段肯定)。相似於簡單的ARIMA參數,它們是:季節性自迴歸(ps),季節性差分(ds)和季節性移動平均參數(qs)。例如,模型(0,1,2)(0,1,1)描述了一個不包含自迴歸參數,2個常規移動平均參數和1個季節性移動平均參數的模型,而且這些參數是在它與滯後1差別一次後計算的,而且一度是季節性差別。用於季節性參數的季節性滯後一般在識別階段肯定,而且必須明確指定。
有關選擇待估計參數的通常建議(基於ACF和PACF)也適用於季節性模型。主要區別在於,在季節性系列中,ACF和PACF將在季節性滯後的倍數處顯示至關大的係數(除了反映系列非季節性成分的總體模式)。
有幾種不一樣的方法來估計參數。全部這些都應該產生很是類似的估計,但對於任何給定的模型可能或多或少都有效。一般,在參數估計階段期間使用函數最小化算法(所謂的準牛頓法;參考非線性估計的描述) 方法)在給定參數值的狀況下最大化觀察到的序列的似然性(機率)。實際上,這須要在給定相應參數的狀況下計算殘差的(條件)平方和(SS)。已經提出了不一樣的方法來計算殘差的SS:(1)根據McLeod和Sales(1983)的近似最大似然法,(2)具備反向的近似最大似然法,以及(3)精確的最大似然法根據Melard(1984)。
比較方法。一般,全部方法都應該產生很是類似的參數估計。此外,在大多數現實世界的時間序列應用中,全部方法都具備相同的效率。然而,上面的方法1(近似最大似然,沒有後向)是最快的,而且應該特別用於很是長的時間序列(例如,具備超過30,000個觀測值)。Melard的精確最大似然法(數字3當用於估計具備長季節性滯後的季節性模型(例如,每一年滯後365天)的參數時,上述)也可能變得低效。另外一方面,您應該首先使用近似最大似然法,以便創建很是接近實際最終值的初始參數估計; 所以,一般只須要幾回具備精確最大似然法(3,以上)的迭代來完成參數估計。
參數標準錯誤。對於全部參數估計,您將計算所謂的漸近標準偏差。這些是經過有限差分近似的二階偏導數矩陣計算的(另請參見非線性估計中的相應討論)。
罰款價值。如上所述,估計過程要求最小化ARIMA殘差的(條件)平方和。若是模型不合適,則在迭代估計過程期間可能發生參數估計變得很是大,而且實際上無效。在這種狀況下,它將爲SS 分配一個很是大的值(所謂的懲罰值)。這一般會「誘導」迭代過程以使參數遠離無效範圍。可是,在某些狀況下,甚至此策略也會失敗,您可能會在屏幕上看到(在估算過程當中))連續迭代中SS的很是大的值。在這種狀況下,請仔細評估模型的適用性。若是您的模型包含許多參數,而且可能包含干預組件(請參見下文),則能夠嘗試使用不一樣的參數起始值。
參數估計。您將報告從參數標準偏差計算的近似t值(參見上文)。若是不顯着,則在大多數狀況下能夠從模型中刪除相應參數而基本上不影響模型的總體擬合。
其餘質量標準。對模型可靠性的另外一個直接和常見的衡量標準是基於部分數據生成的預測的準確性,以即可以將預測與已知(原始)觀測結果進行比較。
然而,一個好的模型不只應該提供足夠準確的預測,它還應該是簡約的而且產生僅包含噪聲且沒有系統組件的統計獨立殘差(例如,殘差的相關圖不該該揭示任何序列依賴性)。對模型的一個很好的測試是(a)繪製殘差並檢查它們是否存在任何系統趨勢,以及(b)檢查殘差的自相關圖(殘差之間不該存在序列依賴性)。
殘差分析。這裏主要關注的是殘差系統地分佈在整個系列中(例如,它們在序列的第一部分多是負的,在第二部分中可能接近零)或者它們包含一些序列依賴性,這可能代表ARIMA模型是不夠的。對ARIMA殘差的分析構成了該模型的重要檢驗。估計過程假設殘差不是(自動)相關的而且它們是正態分佈的。
限制。ARIMA方法僅適用於靜止的時間序列(即,其平均值,方差和自相關應在時間上近似恆定),而且建議輸入數據中至少有50個觀測值。還假設估計參數的值在整個系列中是恆定的。
指數平滑做爲各類時間序列數據的預測方法已經變得很是流行。歷史上,該方法由Brown和Holt獨立開發。布朗在第二次世界大戰期間爲美國海軍工做,他的任務是設計一個火控信息跟蹤系統來計算潛艇的位置。後來,他將這種技術應用於備件需求預測(庫存控制問題)。他在1959年關於庫存控制的書中描述了這些想法。霍爾特的研究由海軍研究辦公室贊助; 他獨立地爲恆定過程,線性趨勢過程和季節性數據開發了指數平滑模型。
Gardner(1985)提出了指數平滑方法的「統一」分類。在Makridakis,Wheelwright和McGee(1983),Makridakis和Wheelwright(1989),Montgomery,Johnson和Gardiner(1990)中也能夠找到優秀的介紹。
時間序列的簡單和實用模型是將每一個觀察視爲由常數(b)和偏差份量(epsilon)組成,即:X t = b +
t。常數b在該系列的每一個片斷中相對穩定,但可能隨時間緩慢變化。若是合適,那麼一種方法來隔離b的真值所以系列的系統性或可預測部分是計算一種移動平均值,其中當前和緊接在前(「較年輕」)的觀測值被分配比相應的較舊觀測值更大的權重。簡單的指數平滑完成了這樣的加權,其中指數較小的權重被分配給較舊的觀察。簡單指數平滑的具體公式是:
S t = * X t +(1-
)* S t-1
當遞歸地應用於該系列中的每一個連續觀察時,每一個新的平滑值(預測)被計算爲當前觀察和先前平滑觀察的加權平均值; 先前的平滑觀察依次從先前觀察值和前一次觀察以前的平滑值計算,依此類推。所以,實際上,每一個平滑值是先前觀察的加權平均值,其中權重根據參數(α)的值指數地減少。若是
等於1(一),則徹底忽略先前的觀察; 若是
等於0(零),而後徹底忽略當前觀察,平滑值徹底由先前的平滑值組成(其依次是從平滑後的觀察計算出來的,依此類推;所以全部平滑的值將是等於初始平滑值S 0)。
中間值將產生中間結果。
儘管已經作了大量工做來研究(簡單和複雜)指數平滑的理論性質(例如,參見Gardner,1985; Muth,1960;另見McKenzie,1984,1985),該方法已經大受歡迎,主要是由於它做爲預測工具的有用性。例如,Makridakis 等人的實證研究。(1982,Makridakis,1983),已經代表簡單的指數平滑是一個時期預測的最佳選擇,從24種其餘時間序列方法和使用各類精確度測量(參見Gross和Craig,1974,for額外的經驗證據)。所以,不管觀察時間序列的基礎過程的理論模型如何,簡單的指數平滑一般會產生很是準確的預測。
Gardner(1985)討論了選擇適當平滑參數的各類理論和經驗論證。顯然,看看上面給出的公式,應該落入0(零)和1之間的區間(儘管如此,參見Brenner 等,1968,ARIMA的觀點,暗示0
<< 2)。Gardner(1985)報道,在從業者中,
一般建議小於.30。然而,在Makridakis 等人的研究中。(1982),
高於.30的值常常產生最佳預測。在回顧了有關該主題的文獻後,Gardner(1985)得出結論,最好
從數據中估算出最優值(見下文),而不是「猜想」並設定人爲的低值。
估算數據的最佳價值。實際上,平滑參數一般經過參數空間的網格搜索來選擇; 也就是說,
嘗試不一樣的解決方案,例如,使用
= 0.1到
= 0.9,增量爲0.1。而後
選擇以便產生殘差的最小平方和(或均方)(即,觀測值減去一步預測;這個均方偏差也稱爲過後平均偏差,過後 MSE簡稱)。
基於特定值評估預測準確性的最直接方法是簡單地繪製觀測值和一步預測。該圖還能夠包括殘差(針對右Y軸縮放),從而也能夠容易地識別更好或最差擬合的區域。
這種對預測準確性的目視檢查一般是肯定當前指數平滑模型是否適合數據的最有效方法。此外,除了過後 MSE標準(見前一段),還有其餘可用於肯定最佳參數的偏差統計量度(見Makridakis,Wheelwright和McGee,1983):
平均偏差:平均偏差(ME)值簡單地計算爲平均偏差值(觀察到的減去一步預測的平均值)。顯然,這種措施的一個缺點是正負偏差值能夠相互抵消,所以這個指標並非總體擬合的很是好的指標。
平均絕對偏差:平均絕對偏差(MAE)值被計算爲平均絕對偏差值。若是此值爲0(零),則擬合(預測)是完美的。與均方偏差值相比,這種擬合度量將「去強調」異常值,即,獨特或罕見的大偏差值將影響MAE小於MSE值。
平方偏差之和(SSE),均方偏差。這些值被計算爲平方偏差值的和(或平均值)。這是統計擬合程序中最經常使用的缺少擬合指標。
百分比偏差(PE)。全部上述措施都依賴於實際偏差值。從一步提早預測與觀測值的相對誤差(即相對於觀測值的大小)來表示缺少擬合彷佛是合理的。例如,當試圖預測月度銷售可能會逐月波動(例如,季節性地)時,若是咱們的預測「達到目標」的準確度大約爲±10%,咱們可能會感到滿意。換句話說,絕對偏差可能與預測中的相對偏差不太相關。爲了評估相對偏差,已經提出了各類指數(參見Makridakis,Wheelwright和McGee,1983)。第一個,百分比偏差值,計算以下:
PE t = 100 *(X t -F t)/ X t
其中X t是時間t的觀測值,F t是預測值(平滑值)。
平均百分比偏差(MPE)。該值計算爲PE值的平均值。
平均絕對百分比偏差(MAPE)。與平均偏差值(ME,見上文)的狀況同樣,0(零)附近的平均百分比偏差能夠經過相互抵消的大的正和負百分比偏差產生。所以,相對整體擬合的更好度量是平均絕對百分比偏差。此外,此度量一般比均方偏差更有意義。例如,知道平均預測「偏離」±5%自己就是一個有用的結果,而30.8的均方偏差不能當即解釋。
自動搜索最佳參數。準牛頓函數最小化過程(與ARIMA中相同,用於最小化均方偏差,平均絕對偏差或平均絕對百分偏差。在大多數狀況下,此過程比網格搜索更有效(特別是當更多時)必須肯定一個參數,而且能夠快速識別最佳參數。
第一個平滑值S 0。到目前爲止咱們忽略的最後一個問題是初始值的問題,或者如何開始平滑過程。若是您回顧上面的公式,很明顯您須要一個S 0值來計算系列中第一個觀測值的平滑值(預測值)。取決於參數的選擇(即,什麼時候
接近零),平滑過程的初始值會影響許多觀測的預測質量。與指數平滑的大多數其餘方面同樣,建議選擇產生最佳預測的初始值。另外一方面,在實踐中,當在關鍵的實際預測以前有許多主要觀察結果時,初始值不會對該預測產生太大影響,由於其影響將長期從平滑系列中「淡化」(因爲指數增加)減小權重,觀察越老,它對預測的影響就越小。
以上在簡單指數平滑的背景下的討論引入了用於識別平滑參數以及用於評估模型的擬合優度的基本過程。除了簡單的指數平滑以外,還開發了更復雜的模型來適應具備季節性和趨勢份量的時間序列。這裏的通常想法是,預測不只根據連續的先前觀察計算(如在簡單指數平滑中),並且能夠添加獨立(平滑)趨勢和季節性份量。Gardner(1985)根據季節性(無,加法或乘法)和趨勢(無,線性,指數或阻尼)討論了不一樣的模型。
添加和乘法季節性。許多時間序列數據遵循重複的季節性模式。例如,玩具的年銷售量可能會在11月和12月的幾個月達到峯值,也許在夏季(峯值小得多)兒童夏季休假時可能達到峯值。這種模式可能每一年都會重複,但12月份銷售額的相對增加量可能會逐年變化。所以,多是有用的一個額外的參數獨立地平滑季節性成分,一般表示爲(增量)。
季節性成分本質上能夠是加成的或能夠是乘法的。例如,在12月期間,特定玩具的銷售額每一年可能增長100萬美圓。所以,咱們能夠增長咱們的預測爲每一年十二月爲100萬美圓(在相應的年平均)來解釋這種季節性波動。在這種狀況下,季節性是附加的。
或者,在12月期間,特定玩具的銷售額可能會增長40%,即增長1.4 倍。所以,當玩具的銷售廣泛疲軟時,12月份的絕對(美圓)銷售增加將相對較弱(但百分比將保持不變); 若是玩具的銷售強勁,那麼銷售的絕對(美圓)增加將相應地增長。一樣,在這種狀況下,銷售額增長必定的因素,而季節性因素本質上是乘法的(即,在這種狀況下,乘法季節性成分將是1.4)。
在該系列的圖中,這兩種季節性成分之間的區別特徵是,在附加狀況下,不管系列的整體水平如何,該系列都表現出穩定的季節性波動; 在乘法狀況下,季節性波動的大小會有所不一樣,具體取決於系列的整體水平。
季節性平滑參數。通常而言,一步提早預測計算爲(對於沒有趨勢模型,對於線性和指數趨勢模型,趨勢份量被添加到模型中;見下文):
添加劑模型:
預測t = S t + I t-p
乘法模型:
預測t = S t * I t-p
在該公式中,S t表明在時間t的系列的(簡單)指數平滑值,而且I t -p表明在時間t減去p(季節的長度)的平滑季節因子。所以,與簡單指數平滑相比,經過將簡單平滑值與預測季節性份量相加或相乘來「加強」預測。這個季節性成分的推導相似於簡單指數平滑的S t值:
添加劑模型:
我t = I t-p + *(1-
)* e t
乘法模型:
I t = I t -p + *(1-
)* e t / S t
換句話說,時間t處的預測季節份量被計算爲上一季節週期中的相應季節份量加上偏差的一部分(e t ;觀察到的減去時間t處的預測值)。考慮到上面的公式,很明顯參數能夠假設0到1之間的值。若是它是零,則預測特定時間點的季節性份量與前一個時間段的預測季節性份量相同。季節週期,反過來預計與前一週期相同,依此類推。所以,若是
爲零,則使用恆定不變的季節性份量來生成一步預測。若是
參數等於1,而後在每一個步驟經過相應的預測偏差(時間(1-
)「最大限度地」修改季節性份量,爲了本簡要介紹,咱們將忽略該時間。在大多數狀況下,當時間序列中存在季節性時,最佳
參數將介於0(零)和1(一)之間。
線性,指數和阻尼趨勢。 爲了保持上述玩具示例,玩具的銷售額可呈線性上升趨勢(例如,每一年銷售額增長100萬美圓),呈指數增加(例如,每一年,銷售額增長1.3倍),或阻尼趨勢(第一年銷售額增長100萬美圓;第二年增加僅比上一年增長80%,即80萬美圓;明年再次減小80%,比上一年減小80%,即800,000美圓* .8 = 640,000美圓;等等)。每種類型的趨勢都留下了明確的「簽名」,一般能夠在系列中識別出來; 下面在不一樣模型的簡要討論中顯示的是說明通常模式的圖標。通常而言,趨勢因子可能會隨着時間的推移而緩慢變化,一樣,使用單獨的參數平滑趨勢份量多是有意義的(表示[ 伽馬 ]的線性和指數趨勢模型,以及
[ 披用於阻尼趨勢模型])。
趨勢平滑參數(線性和指數趨勢)和
(阻尼趨勢)。相似於季節性份量,當趨勢份量包括在指數平滑過程當中時,每次計算獨立趨勢份量,並根據預測偏差和相應參數進行修改。若是
參數爲0(零),則趨勢份量在時間序列的全部值(以及全部預測)中保持不變。若是參數爲1,則趨勢份量經過相應的預測偏差從觀察到觀察「最大」地修改。介於其間的參數值表示這兩個極端的混合。參數
是一個趨勢修改參數,它會影響趨勢的變化有多大會影響後續預測趨勢的估計,即趨勢將被「抑制」或增長的速度。
假設您在國際航班上記錄了12年的每個月載客量(見Box&Jenkins,1976)。若是您繪製這些數據,很明顯(1)多年來乘客負荷彷佛呈線性上升趨勢,(2)每一年內有一個反覆出現的模式或季節性(即大多數旅行發生在夏季,在12月假期期間出現小高峯。季節性分解方法的目的是隔離這些組成部分,即將系列組合成趨勢效應,季節效應和剩餘可變性。旨在實現這種分解的「經典」技術被稱爲人口普查I方法。在Makridakis,Wheelwright和McGee(1983)以及Makridakis和Wheelwright(1989)中詳細描述和討論了該技術。
通常模型。季節性分解的通常概念很簡單。一般,能夠認爲如上所述的時間序列由四個不一樣的份量組成:(1)季節性份量(表示爲S t,其中t表明特定時間點)(2)趨勢份量(T t),(3)循環份量(C t),和(4)隨機,偏差或不規則份量(I t))。週期性和季節性成分之間的差別在於後者以規則(季節性)間隔發生,而週期性因素一般具備較長的週期,週期不一樣。在人口普查I方法中,趨勢和週期成分一般組合成趨勢週期成分(TC t)。這些組件之間的特定功能關係能夠採用不一樣的形式。然而,兩個直接的可能性是它們以加法或乘法方式組合:
添加劑模型:
X t = TC t + S t + I t
乘法模型:
X t = T t * C t * S t * I t
這裏X t表明在時間t的時間序列的觀測值。鑑於一些關於影響系列的週期性因素(例如,商業週期)的先驗知識,可使用不一樣組件的估計來計算將來觀測的預測。(可是,指數平滑方法,也能夠包含季節性和趨勢份量,是預測目的的首選技術。)
添加和乘法季節性。讓咱們考慮一個例子中的加性和乘法季節性成分之間的差別:玩具的年銷售量可能在11月和12月的幾個月達到峯值,也許在夏季(峯值小得多)兒童夏季休息時。這種季節性模式可能每一年重複一次。季節性成分本質上能夠是加成的或可乘的。例如,在12月份,特定玩具的銷售額每一年可能增長300萬美圓。所以,咱們能夠增長咱們的預測爲每一年十二月的300萬量,佔這種季節性波動。在這種狀況下,季節性是附加的。或者,在12月期間,特定玩具的銷售額可能會增長40%,即增長1.4倍。所以,當玩具的銷售廣泛疲軟時,12月份的銷售絕對(美圓)增加將相對較弱(但百分比將保持不變); 若是玩具的銷售強勁,那麼銷售的絕對(美圓)增加將成比例地增長。一樣,在這種狀況下,銷售額增長必定的因素,所以季節性因素是乘法的在本質上(即,在這種狀況下,乘法季節性成分將是1.4)。在系列圖中,這兩種季節性成分之間的區別特徵是,在附加狀況下,不管系列的整體水平如何,該系列都表現出穩定的季節性波動; 在乘法狀況下,季節性波動的大小會有所不一樣,具體取決於系列的整體水平。
加法和乘法趨勢週期。咱們能夠擴展前面的例子來講明加法和乘法趨勢週期份量。就咱們的玩具示例而言,這是一種「時尚」 趨勢可能會致使銷售額穩步增加(例如,通常趨向於更多教育玩具); 與季節性因素同樣,這種趨勢多是附加的(銷售額每一年增長300萬美圓)或乘數(銷售額增長30%,或每一年增長1.3倍)。此外,週期性組件可能會影響銷售; 重申一下,週期性成分與季節性成分的不一樣之處在於它一般具備較長的持續時間,而且它以不規則的間隔發生。例如,特定玩具在夏季期間可能特別「熱」(例如,與主要兒童電影的發行相關聯的特定玩偶,而且經過普遍的廣告促銷)。一樣,這種循環組件能夠以附加方式或乘法方式實現銷售。
的季節性分解(人口普查I)標準公式示於Makridakis,惠爾賴特,和麥基(1983),和Makridakis和車匠(1989)。
移動平均線。首先計算該系列的移動平均值,移動平均窗口寬度等於一個季節的長度。若是季節的長度是均勻的,那麼用戶能夠選擇使用相等的權重用於移動平均值,或者可使用不等權重,其中移動平均窗口中的第一個和最後一個觀察值被平均。
比率或差別。在移動平均值系列中,將消除全部季節性(季節內)變化; 所以,觀察和平滑系列的差別(在加性模型中)或比率(在乘法模型中)將隔離季節性成分(加上不規則成分)。具體地,從觀察到的系列中減去移動平均值(對於加法模型)或者將觀察到的序列除以移動平均值(對於乘法模型)。
季節性成分。而後將季節性成分計算爲季節中每一個點的平均值(對於加性模型)或中間平均值(對於乘法模型)。
(一組值的中間平均值是排除最小值和最大值後的平均值)。結果值表示系列的(平均)季節性組件。
經季節性調整的系列。原始系列能夠經過從中減去(加法模型)或除以(乘法模型)季節性成分來進行調整。
由此產生的系列是通過季節性調整的系列(即季節性成分將被刪除)。
趨勢週期組件。請記住,週期性成分與季節性成分的不一樣之處在於它一般比一個季節長,不一樣的週期可能有不一樣的長度。經過對季節性調整的系列應用權重爲1,2,3,2,1的5點(居中)加權移動平均平滑變換,能夠近似組合趨勢和週期份量。
隨機或不規則的組件。最後,能夠經過從經季節性調整的系列(加法模型)中減去或將調整後的系列除以(乘法模型)趨勢週期份量來分離隨機或不規則(偏差)份量。
注:本文翻譯於網站http://www.statsoft.com/textbook/time-series-analysis