時間序列數據是一個物體或多個物體隨着時間不斷產生的數值序列。好比:從智能電錶中得到月電度使用量;每日股票的價格和交易量;ECG(心電圖);地震儀,網絡性能數據等等。時間序列數據必定基於時間順序,這個順序是全部時間分析算法的基礎。IBM Streams時間序列工具包(TimeSeries Toolkit),能夠用來預處理、分析和建模時間序列數據。css
在IBM Streams裏,時間序列數據有三種主要類型的處理方法:html
- 數據預處理:包括讀取、修復、條件化數據。
- 數據分析:包括分析時間序列數據的內在信息。好比:對時間序列數進行計算統計信息和關聯,解析和轉換.
- 數據建模:包括時間序列模型的建立以及使用模型來預測或迴歸。
這個工具包還提供一系列函數來自動生成以測試和驗證爲用途的時間序列數。如下對該工具包的具體功能:算法
1. 分析模塊具備如下Operator(對時間序列數據流進行連續運算)網絡
- AnomalyDetector異常檢測
- CrossCorrelate2交叉關聯(滑動點乘或滑動內乘),用於測量兩個時間序列的類似度
- CrossCorrelateMulti用於模式識別,兩個或多個時間序列。
- DSPFilter2數字信號處理(DSP)的過濾操做算法執行對輸入時間序列的數字濾波操做。數字濾波是一個廣泛的技術使用,以提升或下降的時間序列的某些特性。它可用於長度不能計數的數據處理,例如,數據平滑化,趨勢,加強,放大,和頻率解析。
- DSPFilterFinite同上,用於有限長度的數據處理。
- DWT2離散小波變換
- Distribution 四位分佈圖quartile distribution
- FFT傅里葉變換
- FunctionEvaluator對時間序列中每一個值進行計算
- Normalize計算均值和方差,零均值和單位方差
- PSAX分段聚合近似Piecewise Aggregate Approximation
- STDseasonal trend decomposition 季節趨勢分解
2. 分析模塊具備如下函數(對單個時間序列值進行運算)jsp
- convolve,laggedConvolve卷積運算
- crosscorrelate,laggedCrosscorrelate交叉關聯
- rms方根均值
3. 距離模塊具備如下函數(對單個時間序列值進行運算)函數
- dtw動態時間規整dynamic time warping (DTW)
- dtw_itakura Itakura Parallelogram DTW
- dtw_sakoe_chiba Sakoe-Chiba Band based DTW
- lcss longest common subsequence (LCSS)最長公共子序列
- lpNorm Lp範式
4. 數據生成模塊具備如下函數Operator(自動生成時間序列數據流)工具
5. 數據生成模塊具備如下函數性能
- generate_pulsetrain_wave
- generate_sawtooth_wave
- generate_sine_wave
- generate_square_wave
- generate_triangular_wave
6. 建模模塊具備如下函數Operator((對時間序列數據流進行連續運算)學習
- ARIMA2自迴歸積分滑動平均模型
- AutoForecaster2時間序列值自動預報
- FMPFilter自適應褪色記憶多項式濾波器,用於跟蹤、平滑、離羣值、異常檢測
- GAMLearner廣義可加模型
- GAMScorer利用廣義可加模型打分
- GMM混合高斯模型,用於機率估計和離羣值、異常值檢測
- HoltWinters2三次指數平滑法,用於長期預報
- KMeansClusteringKMeans聚類分析
- Kalman卡爾曼濾波器,用於跟蹤、平滑和自適應時間序列數據。
- LPC線性預測編碼
- RLSFilter遞歸最小二乘(RLS),預測
- VAR2,Granger因果關係算法,用於近期預測、異常檢測。
- IncrementalInterpolate增量插補,計算遺漏值
- ReSample重採樣
- TSWindowing窗函數,包括 Hamming, Hann, Blackman, Cosine, 和Triangle
Streams TimeSeries 工具包經過許多操做符進行了完善,可以創建預報、跟蹤、迴歸和預測模型。在一些真實場景中,輸入時間序列可能更改它的頻率範圍或者可能不斷形成干擾,或者開始丟失數據。使用這些質量糟糕的數據來構建模型可能致使糟糕的性能。所以,在數據質量降低時,必須執行從新構建模型或暫停更新模型參數的過程。而在運行時這麼作是一大挑戰。測試
TimeSeries 工具包的建模操做符經過使用一個控制端口來接受特定的控制信號,促進了模型的再培訓、暫停或恢復。一旦在輸入數據中檢測到異常或變動,就能夠向建模操做符發送控制信號,讓其更改其行爲。可是,這個控制信號應與所監視的數據同步,不然會致使模型中異常數據氾濫。例如,控制信號的細微延遲可能致使對壞數據進行模型培訓。在流環境中,控制這一延遲很是棘手,由於沒法保證控制信號和數據在操做符之間的移動速度。
能夠考慮預報某個區域的電力使用狀況的示例。在模型構建週期中,必須忽略小電力故障,不然可能在預報期間產生失真的結果。小故障或超出範圍的數據須要丟棄,控制端口特性可幫助實現此目的。Streams能夠將控制信號的檢測和提交與用於模型學習的數據進行同步。
截止時間:2016年11月30日
更多大數據與分析相關行業資訊、解決方案、案例、教程等請點擊查看>>>
詳情請諮詢在線客服!
客服熱線:023-66090381