數據化決策(期末複習)

第一章 預測概述

預測:根據事物的客觀發展趨勢與變化規律,對特定的對象將來發展的趨勢或狀態作出科學的推測與判斷網絡

預測的5大基本原理

  • 系統性原理。 以系統的觀點爲指導,採用系統分析,實現預測的系統目標。
    • 預測問題的提出
    • 預測模型的創建(變量及其關係)
    • 預測方法的解決
    • 預測過程的組織和預測結果的應用
  • 慣性(連貫性)原理。 事情的發展變化與其過去的行爲總有或大或小的聯繫,過去的行爲影響如今,也影響將來,這種現象稱之爲「慣性現象」。所謂慣性原理,就是研究對象的過去和如今,依據其慣性,預測其將來狀態。它是趨勢外推法的理論依據,時間序列事件建模
  • 類推原理。 根據已知的某事物的發展變化特徵,推斷其具備近似特徵的預測對象的將來狀態,就是所謂的「類推原理」。是從已知領域過渡到到未知領域的探索,是一種重要的創造性方法。類比物之間類似特徵越多,類比越可靠。 定性分析
  • 相關性原理。 研究預測對象與其相關事物間的相關性,利用相關事物的特徵來推斷預測對象的將來狀態。(注意區分相關關係與因果關係
    • 同步相關。A發生以後,B立刻發生。溫度升高---->用電量上升
    • 異步相關。A發生以後,B一段時間後發生。動物疫病---->價格波動
  • 機率推斷原理。 受各類內外部因素上的影響,預測對象的將來狀態帶有隨機性。可用機率統計的方法求出各類各類隨機事件的機率,當預測結果以較大的機率出現時,可認爲這個結果成立。(第六章 馬爾科夫預測)

預測的評價,自成功,自失敗預測(第七章)

預測的評價

準確性:預測對象的將來特徵具備測不許性。 各類干擾、預測對象變化的複雜程度、人們的認知以及隨機現象的隨機性都會使預測結果不許確。異步

預測模型的評價遵循以下原則:函數

  • 合理性。與事物發展規律一致,符合邏輯。
  • 預測能力。是否具備預測能力:一、預測期間事物發展規律。二、預測模型偏差範圍。
  • 穩定性。在較長時期內準確的反應預測對象的發展變化。
  • 簡單性。預測能力相差不大時,形式簡單、容易運用的模型。

自成功與自失敗

  • 自成功預測。只要作出了這種預測,其結果就會自動發生。預測與對方相處融洽,必然致使本身重視與對方的交往,促進結果的產生。
  • 自失敗預測。只要作出了這種預測,其結果就會自動失敗。開車時預測以當前速度行進會撞到行人,作出這樣的預測必然致使減速等待行人經過,則預測結果天然不會發生。

我的理解:自成功與自失敗的不一樣主要取決於預測結果是不是本身的或者大衆的指望。性能

預測結果自己會不會被預測結果所影響: eg:預測股價上漲,結果股價確實上漲,產生的緣由是我預測的準,仍是有了這個預測以後,提高了你們的預期,因此紛紛去買,致使股票上漲。(第二種緣由,自成功預測,預測的結果自己,對結果又促進做用。)測試

預測活動對預測結果考慮,可將預測分爲三類:大數據

  • 決策者沒法控制,也難以影響預測結果可否實現的預測。eg:天氣預報
  • 決策者能夠控制預測結果可否實現的預測。eg:自成功預測、自失敗預測
  • 決策者只能部分地控制或影響預測結果的實現。這類預測不一樣程度地含有自成功或自失敗的因素。

補充課件:預測的基本知識點

預測偏差

創建一個模型以後,它的性能的好壞,要有一個評判的標準。,RMSE、MAE反應的是絕對差別。優化

  • 相對偏差。(預測值-真實值)/真實值。百分比的差別。MAPE
  • 絕對偏差。RMSE = '\sqrt{\frac1m\sum_{i=1}^m(y_i - \hat{y_i})^2} , MAE = \frac1m\sum_{i=1}^m\begin{vmatrix}(y_i - \hat{y_i})\end{vmatrix}

預測模型構建方式

對一段已知的數據進行必定比例的劃分,前面百分之80作訓練集,百分之20作測試集。在測試集上進行訓練集的偏差,根據此偏差判別訓練集的好壞。在訓練集裏劃分出一個小的驗證集,一樣是作參數的肯定。cdn

多步預測

一步預測或多步預測取決於的是數據最後一個觀測值的時間點距離要預測的時間點的間隔。 建模策略,訓練的樣本集該怎樣構建?訓練樣本里面是否包含預測的數據對象

  • 滾動策略(直接建模)。123->4, 1234->5,12345->6。獲得真實值再預測
  • 迭代策略。123->4, Y4擬合值代入函數進行預測5。用預測值代替真實值預測

沒有絕對的好壞,對數據的依賴不一樣,選擇不一樣的方式blog

絕對領先的預測模型?

否!但通過各種預測競賽(M1,M3,M4,NN3,NN5),總結出一些性能廣泛較優的模型

第二章 非模型預測

非模型預測預:測者憑藉本身的業務知識、經驗和綜合分析能力,運用已掌握的歷史資料和直觀材料,對事物發展的趨勢、方向和重大轉折點作出估計與推測。

指標預測法與類比法

指標預測法: 根據經濟發展中各類經濟指標的變化,分析判斷市場將來發展趨勢的方法。

  • 領先落後指標法。 根據與經濟發展有關指標的變化同市場變化之間在時間上的前後順序,來分析判斷預測市場發展前景。不一樣的指標在於①循環轉折變化出現的時間②經濟景氣循環相應轉折變化 之間前後出現的時間點。(與以前講到的同步相關、異步相關相似的概念。)
    • 先期指標(先行指標)。①穩定領先②的經濟指標。預警指標體系的主體,對市場行情變化始終起預報或示警做用。
    • 同步指標(一致指標)。①與②幾乎同事發生(偏差不超過兩個月)。整體經濟行爲的衡量標誌。
    • 落後指標(遲行指標)。①穩定的落後於②(約3個月以上,半個週期之內)。檢驗宏觀經濟波動過程是否確已超過某個轉折點,進入另外一景氣狀態。
  • 擴散指數法。 根據領先經濟指標的升降變化,計算出上升指標的擴散指數,以擴散指數爲依據來判斷市場將來的景氣狀況。只能有效預計經濟形勢與市場行情波動轉折點。 運用一批經濟指標的變化的變化來預測市場將來的發展趨勢。擴散指數法比任何單一指標都更具可靠性和權威性。
  • 合成指數法(CI)。 既能分析經濟形勢或市場行情變化的轉折點,,又能在某種意義上反映經濟形勢或市場行情波動振幅。將擴散指數法找到的一系列指標根據某種依據合成一個指標。

類比法: 利用兩事物發生的時間差別和形式上的相同或類似,借用先行的、同類的、類似的事物的有關參數,推斷預測目標將來發展趨勢與可能水平。

  • 產品類比法。 對同類或者相近產品的歷史資料,如銷售狀況、市場需求等資料進行類比研究。
  • 地區類比法。 依據其餘地區(或國家)曾經發生的事件進行類推,同一產品在不一樣地區有領先滯後的時差,能夠根據領先地區的市場狀況類推滯後地區的市場狀況
  • 行業類比法。 同一產品在不一樣行業使用時間的前後,利用該產品在先使用行業所展示的特性,類推該產品在後使用行業的規律。
  • 局部整體類比法。 經過典型調查或者其餘方式進行一些具備表明性的調查,分析市場動態變化及發展規律,預測和類推全局或大範圍的市場變化。

機率預測法的交叉影響分析(P50 計算例題2-11)

交叉影響分析法(交叉機率法): 經過主觀估計每一個事件在將來發生機率,以及事件之間相互影響的機率,利用交叉影響矩陣考察預測事件之間的相互做用,進而預測目標事件將來發生的可能性。

  • 主觀判斷估計各事件發生的機率,即初始機率。
  • 構造交叉影響矩陣,反應事件相互影響程度。
  • 根據事件之間的相互影響,修正各事件發生的機率,根據修正後的結果進行預測。

某個事件發生以後,對另一個事件的影響。利用隨機數,肯定事件是否發生,在此事件的基礎上修改其餘事件機率,如此迭代,趨於穩定。

第三章 迴歸預測

相關關係與因果關係的區分

相關關係必定是因果關係的前提,但有相關關係並不必定有因果關係。兩個變量之間存在相關關係,不必定說明二者之間存在着因果關係。因果關係,是指一個變量的存在必定會致使另外一個變量的產生。而相關性是統計學上的一個概念,是指一個變量變化的同時,另外一個因素也會伴隨發生變化,但不能肯定一個變量變化是否是另外一個變量變化的緣由。好比天氣冷和下雪一般一塊兒發生,說明二者有很強的相關性,但不能確定是誰致使了誰,因此不肯定二者是夠有因果關係。

原則上以往建模的前提條件須要事物之間要有因果關係,如今在大數據時代上述思想受到挑戰,如今只有相關關係也能夠用來建模。只不過這種狀況下創建出來的模型的穩定性,必定比不上因果關係創建出來的模型的穩定性。

多元線性迴歸中的多重共線性問題

多元迴歸各個自變量之間自己存在相關性(線性或接近線性)的關係,也就是多重共線性。

若干自變量之間的共線性程度很高,產生的後果:

  • 係數估計值的精度大大下降。沒法正確判斷自變量對因變量的影響程度。變量a、b,對應的係數i、j,因ab之間有相關性,不能保證係數ij之間有沒有代替關係。
  • 估計的結果很是敏感。樣本容量增大減少,係數的估計值會有很大的變化。
  • 是預測人員錯誤的剔除對因變量影響很大的自變量或錯誤的引入對因變量沒有顯著影響的自變量。
  • 估計的參數出現不和邏輯的符號,使預測失去意義。

第四章 肯定型時間序列分析

時間序列:觀察記錄到的一組按時間順序排列的數據。

肯定型時間序列:數據序列去掉隨機擾動後,剩下的能夠用肯定的時間函數表示。數據=模型+偏差(隨機擾動)

移動平均(計算P93例題4-2)

  • 優勢:簡單易行。
  • 不足: 一、每計算一次移動平均,需存儲最近N個觀察數據。二、對最近的N個觀察值等權對待,對t-N期之前的數據徹底不考慮。

一次移動平均

哪一個參數最重要,決定移動平均的效率的參數:移動期數。 移動期數越多,對原始序列的平滑做用的程度越大。數據的波動程度。經過屢次的實驗判斷更合適的參數。

M_t^{(1)} = \frac{X_t+X_{t-1}+...+X_{t-N+1}}{N} = \frac{\sum_{i=0}^{N-1}X_{t-i}}{N}

X_t爲t週期的實際值,N爲計算移動平均值所選定的數據個數,跨越期即移動期數。 t+1期的預測值取

\hat{X}_{t+1} = M_t^{(1)}

也就是說預測第Y期,要從Y-1期開始算M_t^{(1)}(N)

N即移動期數。通過移動平均法計算後,隨機波動顯著減少。N越大,修勻的程度越強,波動也越小,這時變化趨勢反應就越遲鈍。反之則相反。在實用上,通常用對過去數據預測的均方偏差S做爲選取N的準則。一次移動平均法應用於非平穩模型會有嚴重的滯後性。

  • 通常只適應於平穩模式。
  • 通常只適用於下一時期的預測。

二次移動平均

在一次平均數的基礎上,二次移動平均爲

M_t^{(2)} = \frac{M_t^{(1)}+M_{t-1}^{(1)}+...+M_{t-N+1}^{(1)}}N

創建直線趨勢預測模型(例題4-4 P97)

設時間序列\{X_t\}從某時期開始具備直線趨勢,且認爲將來時期也按此直線則趨勢變化,則設此直線趨勢預測模型

\hat{x}_{t+T} = a_t + b_tT

t爲當前的時期數,T爲由t至預測期的時期數,T = 1,2,...;a_t爲截距,b_t爲斜率,二者又稱平滑係數。可運用移動平均計算平滑係數

a_t = M_t^{(1)} + (M_t^{(1)} - M_t^{(2)}) = 2M_t^{(1)} - M_t^{(2)}
b_t = \frac{2(M_t^{(1)} - M_t^{(2)})}{N-1}

指數平滑:α的做用

意義:利用平滑係數\alpha來實現不一樣時間的數據的非等權處理。距離如今越遠的數據,權重越小。衰減的速度取決於\alpha的大小,\alpha越大,衰減越快,\alpha越小,衰減越小。

做用:\alpha較大表示較倚重近期數據所承載的信息,修正的幅度也較大,採用的數據序列也較短;\alpha較小表示修正的幅度也較小,採用的數據序列也較長。

指數平滑最適用於進行簡單的時間序列分析和中短時間預測。

一次指數平滑

一次指數平滑值爲

s_t^{(1)} = \alpha X_t + \alpha(1-\alpha)X_{t-1} + \alpha(1-\alpha)^2X_{t-2} + ...

預測公式爲

\hat{X}_{t+1} = S_t^{(1)}

二次指數平滑

二次指數平滑值爲

S_t^{(2)} = \alpha S_t^{(1)} + \alpha(1-\alpha)S_{t-1}^{(1)} + \alpha(1-\alpha)^2S_{t-2}^{(1)} + ...

預測公式爲

\hat{X}_{t+T} = a_t + b_tT

其中

a_t = S_t^{(1)} + (S_t^{(1)} - S_t^{(2)}) = 2S_t^{(1)} - S_t^{(2)}
b_t = \frac\alpha{1-\alpha}(S_t^{(1)} - S_t^{(2)})

\alpha爲平滑係數,T爲所需預測超前期數,S_t^{(1)}爲一次指數平滑值,S_t^{(2)}二次指數平滑值。

季節指數法

指經濟變量在一年之內以季(月)的循環爲同期特徵,經過計算銷售量(或需求量)的季節指數達到預測目的一種方法。

不考慮長期趨勢的季節指數法

  • 計算曆年同季度(月)的平均數。r_i,i = 1,2,3,4
  • 計算各年季平均值。\overline{y}_i,i = 年份的個數,\overline{y}_n = \frac14(y_{4n-3} + y_{4n-2} + y_{4n-1} + y_{4n})
  • 計算各季(月)的季節指數。以歷年同季(月)的平均數(r_i)與全時期的季(月)平均數(\overline{y})之比爲季節常數\alpha_i,即\alpha_i = \frac {r_i}{\overline{y}},\overline{y}爲步驟二中所求值的平均數。
  • 利用季節指數法進行預測。假設\hat{y}_t爲第t月的預測值,\alpha_t爲第t月的季節指數,y_i爲第i月的實際值,\alpha_i爲第i月的季節指數,則
\hat{y}_t = y_i\frac{\alpha_t}{\alpha_i}

第五章 隨機型時間序列

殘差 = 真實值 - 擬合值

差分:\nabla X_n = X_n - X_{n-1},引入差分算子\nabla=1-Bn階差分可定義爲\nabla^n = (1-B)^n

平穩性時間序列:時間序列的均值與自協方差函數不隨時間變化而變化。

時間序列的平穩性

時間序列分析建模的流程

  • 根據建模的目的和理論分析,肯定模型的基本形式
  • 進行模型識別,即從一大類模型中選擇出一類實驗模型
  • 將所選模型應用於歷史數據,求得模型的參數
  • 檢驗模型是否合適。合適,預測控制,不合適,返回第二階段從新選擇

模型診斷:殘差序列是否符合白噪聲的特色。圍繞均值上下隨機波動

白噪聲

  • 白噪聲是指功率譜密度在整個頻域內均勻分佈的噪聲。
  • 白噪聲序列就是一系列獨立分佈的正態序列:序列無相關性,無趨勢性,有隨機性,它服從均值爲0,方差爲σ2的正態分佈,白噪聲的每個時序點都是服從正態分佈的。
  • 之因此稱爲白噪聲,是由於他和白光的特性相似,白光的光譜在各個頻率上有相同的強度,白噪聲的譜密度在各個頻率上的值相同。

ARIMA模型中p,q參數的識別方法(140-141)

p:自迴歸階數 q:移動平均階數

p、q參數識別看自相關圖與偏自相關圖、截尾與拖尾形式。

  • AR(p)。自相關拖尾,偏自相關截尾。p:偏自相關在第幾階截尾
  • MA(q)。自相關截尾,偏自相關拖尾。q:自相關在第幾階截尾
  • ARMA(p,q)。自相關、偏自相關拖尾且較快收斂爲0。p:偏自相關 q:自相關。以最簡單的形式進行判別。eg(1,1)、(1,2)、(2,1)、(2,2)等進行嘗試檢驗是否符合。
  • ARIMA(p,d,q)。自相關、偏自相關拖尾且(至少有一個降低很慢)。d:差分階數

滯後算子的表達形式

改寫等式爲算子表達式(P168第3題)

引入向後推移算子B

B^kX_n = X_{n-k}, B^kC = C, k=0,1,...(C爲常數)

基於ARIMA模型的預測(ppt例題18)

AR(p)自迴歸模型

MA(q)移動平均模型
ARMA(p,q)自迴歸移動平均(即上面兩個公式相加)
ARIMA(p,d,q)求和自迴歸移動平均模型

有些時間序列常呈現出一種特殊的非平穩性,稱之爲齊次非平穩性:只要進行一次或屢次差分就能夠將其化爲平穩序列。差分的次數稱爲齊次化的階,即d。 差分:\nabla X_n = X_n - X_{n-1},引入差分算子\nabla=1-Bn階差分可定義爲\nabla^n = (1-B)^n

第六章 馬爾科夫預測

馬爾科夫過程:事物的變化過程僅與近期的狀態有關,而與事物過去的狀態無關。

馬爾科夫預測:事物有不少種狀態,在不一樣狀態之間轉移的機率

繪製狀態轉移機率矩陣(例題6-二、6-3)

狀態轉移過程當中行向量相加必定爲1,在多步轉化以後達到一種穩定的狀態。

P^{(n)} = P(0)P^n

穩態機率矩陣的求解(例題6-5)

X = (x_1,x_2,...,x_N)爲一狀態機率向量,P爲狀態轉移矩陣。若

XP = P

則稱X爲馬爾科夫鏈的一個平穩分佈。根據方程組一下求解X,即穩態分佈

\begin{cases}
XP = X \\
\sum_{i=1}^nx_i = 1
\end{cases}

第八章 決策概述

決策的幾種類型:肯定型、風險型、不肯定型

  • 肯定型。 天然狀態只有一種,不用考慮天然狀態而按照既定目標即評價準則選擇行動方案。
  • 風險性。 天然狀態有兩種或兩種以上,各類天然狀態出現的機率已知。
  • 不肯定性。 決策者面臨的可能出現的天然狀態有多種,但各類天然狀態出現的機率未知。

第九章 指望效用理論與前景理論

指望收益、指望效用、前景理論之間的區別與聯繫

  • 指望效用理論與前景理論是對最基本的指望收益理論進行的改進。
  • 指望收益理論純粹用經濟價值評判方案的好壞,有必定的侷限性。
    • 實際決策與理想決策的差別性。絕症病人只要有一線治癒機會就會不惜一切代價求醫問藥。
    • 決策者的主觀因素。在原來的襯衣都要已破舊與還有十幾件新襯衣的狀況下,去買一件新襯衣。
  • 指望效用理論對不一樣的決策結果作出指望效用曲線,經過屢次問答的過程肯定效用曲線上的點,很好的描述了不一樣決策者之間的決策偏好。
    • 指望效用值,能表述人們主觀價值的衡量指標,能綜合衡量各類定性、定量的結果。
    • 這個指標能夠因人而異,視各人的經濟、社會心理條件而定。
  • 前景理論。在不一樣的風險前景下作出的選擇,與指望理論的基本原則並不一致。對於同一個決策者在不一樣的條件下,它的風險厭惡與風險偏好都不是徹底絕對的。在肯定損失時會選擇風險偏好,在肯定收益時則有風險厭惡的傾向。演變出前景理論,將我的風險決策過程分爲兩步:
    • 編輯階段。對所給前景作簡單的分析,產生一個前景描述。
    • 評價階段。評價編輯過的前景,而後選擇最大有效值的前景。

效用曲線的理解

  • 風險中性型。斜率爲1. 產出的增長量與獲得的知足感相同的。
  • 風險厭惡型。呈凸狀。決策者基於擺脫差的產出帶來的指望,此時的斜率比在好的產出時的斜率大,增加快。即基於擺脫差的結果,增加快,對於好的結果沒太大感覺,增加慢。
  • 風險偏好型。呈凹狀。在差的結果時增加較慢,對差的結果沒太大感覺,在好的結果時增加快,急於趨向好的結果。

反射效果

在肯定損失時會選擇風險偏好,在肯定收益時則有風險厭惡的傾向。人們面臨得到時,每每當心翼翼,不肯冒風險;而在面對損失時,人人都稱冒險家了。我的注重的並非某個參考點的財富變更而是最終財富值的預期效用。

第十一章 多目標決策

多目標決策的基本特色

  • 多個目標。
  • 目標之間的不可公度性。各個目標之間沒有統一的度量單位。
  • 目標之間的矛盾性。選擇一種方案改進某一目標值,可能使另外一目標的值變壞。

劣解與非劣解

  • 劣解:方案A的各目標均劣於另外一方案B的各目標,方案A能夠直接捨去。這樣的方案A稱爲劣解。
  • 非劣解:既不能當即捨去,又不能當即肯定爲最優解的方案。

多目標轉爲單目標的幾種方法

  • 主要目標優化兼顧其餘目標的方法。(線性規劃)
  • 線性加權法。(分別給以權重係數相加構成新的目標函數,求最大值)
  • 平方和加權法。(每一個目標分別給以一個滿意值,目標值減去滿意值獲得新的序列後再進行線性加權,求最小值,最接近滿意值)
  • 乘除法。(目標值越小越好的目標相乘放在分子,目標值越大越好的目標相乘放在分母,求新的目標函數的最小值)
  • 功效係數法。

網絡分析法(ANP)與層級分析法(AHP)的不一樣

網絡分析法的決策原理與層次分析法基本相同,不一樣的是前者創建的是網絡結構模型,然後者創建的是層次結構模型。在層次分析法中,元素之間是按照層級結構排列的,並假設同層之間的元素是相互獨立的,並且元素之間不存在反饋關係。可是在現實的複雜決策中這一假設每每不能被知足。網絡分析法取消了這一假設,它以一種網絡化的方式表達元素之間的相互關係,容許元素之間存在相互依賴關係和反饋關係,於是與現實問題更爲接近,能夠較爲全面的分析有關問題。所以ANP(網絡分析法)更爲深入的描述了複雜度決策系統,而AHP(層次分析法)能夠看作ANP(網絡分析法)的一個特例。

模糊決策P323例題13-1,表13-2

  • 肯定模糊關係矩陣R
  • 根據主觀因素,肯定因素權重向量A
  • 向量A與模糊矩陣R之間運用合成算子(P325表13-2)的運算形式計算,得到模糊綜合評價向量B
  • 將模糊綜合評價向量B在橫向上進一步合成,獲得單一的綜合評價值。

模糊評價的核心就是經過對模糊評價向量B的分析作出綜合結論,進行模糊決策。

相關文章
相關標籤/搜索