第二篇:智能電網(Smart Grid)中的數據工程與大數據案例分析

前言

        上篇文章中講到,在智能電網的控制與管理側中,數據的分析和挖掘、可視化等工做屬於核心環節。除此以外,二次側中須要對數據進行採集,數據共享平臺的搭建顯然也涉及到數據的管理。那麼在智能電網領域中,數據工程究竟是如何實施的呢?算法

        本文將以IBM的Itelligent Utility Network產品爲例闡述智能電網中的數據工程,它是IBM聲稱傳統電網向智能電網轉變的總體方案(看過上篇文章的童鞋想必會清楚這樣的說法是片面狹隘的,它只能算是智能電網中的數據工程)。數據庫

        另外一方面,現在是一個數據爆炸的時代,電力領域也不例外。隨着大量高級傳感器、智能量測系統投入使用,大量的設備狀態數據、用戶用電數據、電網運營數據等被聚集到電網數據中心,這就須要先進大數據技術對這些海量數據進行實時分析,並實時挖掘出其潛在價值。安全

        所幸目前已有很多大數據技術成功應用到電網,促進了電網的智能化發展。本文也將重點分析兩個經典大數據應用案例,讓讀者品味電網領域中大數據的味道網絡

智能電網中的數據工程 - Intelligent Utility Network@IBM

        Itelligent Utility Network是IBM公司提出的一個很不錯的智能電網數據工程方案,筆者認爲IBM做爲全球商用軟件巨頭,提出的這套方案質量仍是比較高的,起碼看起來像那麼回事。固然這款產品也只是IBM在智能電網領域的初期嘗試,隨着智能電網的迅速發展,IBM必然會推出更新更強大的數據產品。另外SAP、Oracle、華爲、阿里等公司想必也不會放過這塊蛋糕,加入進來也應該是早晚的事情。架構

        接下來是該款產品的定義:Itelligent Utility Network首先利用傳感器對發電、輸電、配電、供電等關鍵設備的運行情況進行監控,其次將得到的數據經過網絡系統進行收集、整合,最後經過對數據的分析、挖掘,達到對整個電力系統的優化管理。顯然在IBM的眼裏,智能電網的數據工程就是各類信息收集基礎設施(如傳感器)+中央數據分析運營平臺,以實現對電力客戶、電力資產、電力運營的持續監視,進而提升電網公司的管理、工做水平。框架

        IBM認爲智能電網數據工程主要分紅如下五大組成部分:分佈式

        1. 數據採集工具

        IBM認爲智能電網中的數據相比傳統電網來源要更加普遍,它主要分爲三個部分:oop

        其中,電網運行數據可用於電網調度中心制定輸電配電策略;設備狀態數據可用於開展設備狀態檢修和狀態評估;客戶計量數據能增強電網公司對用戶用電行爲的檢測,強化需求側管理。管理好這些數據,就能實時掌握電網的運行狀態,及時地制定電力調度、設備維修等策略。學習

        2. 數據傳輸

        在數據採集方面,IBM認爲智能電網中數據量大、採集點多且分散,且實時性要求較高。針對這種狀況,應當摒棄現有基於SCADA的採集方式,改用基於IP的實時數據傳輸方式進行傳輸。PS.筆者前段時間去參加亞洲智能電網展的時候,看過很多公司專門負責作電網中的數據通訊,不知這個模塊IBM是否是找其餘公司來作的。

        3. 數據集成

        這個應該算是IBM的老本行了,他們在世界各地都有開設些講座、研討會,有空能夠去聽一聽了解下。在傳統數據集成這一塊,IBM作的是真的不錯。筆者過去在A公司工做的時候,主管就是來自IBM的,他對數據的思考很是獨到,很是犀利。

        不扯遠了......針對電網中的數據集成,IBM提出了創建企業信息總線(ESB)以實現企業的數據集成:將各業務系統的數據集成到統一數據倉庫裏,底層建模遵守CIM標準

        4. 分析優化

        分析優化環節顯然是最核心的環節,IBM提出將智能電網的優化分爲四個層次,創建了分析層次結構,從而指導用戶對電力數據進行深層次利用。該部分涉及到不少電力系統的具體業務細節,本文篇幅所限不對此進行深刻研究。但對於電網公司的數據工做人員,筆者認爲應該掌握、精通相似工具

        5. 數據展示

        數據展示是智能電網面向用戶或者電網工做人員的接口,用戶/工做人員可根據自身需求配置須要展現的各類信息及可視化方式。

智能電網中的大數據技術體系

        1. 工程框架

        不管是電力領域的大數據,仍是諸如運營商、電商等領域的大數據,其基本架構都大抵相同:

        最底層的業務系統層包含電網中各類不一樣類型的數據源;數據倉庫層用於實現ETL以及相應的數據質量保障工做,並對電力數據進行各類建模以知足多種分析統計的須要;數據引擎層包含從上層應用系統中提煉出的一些數據開發工做,常見的有數據分析引擎、數據挖掘引擎、數據可視化引擎、推薦引擎等等;應用系統層則是面向用戶的系統,以網站或APP、專業客戶端等形式向用戶提供數據服務。

        2. 關鍵技術

        主要包含傳統的數據管理領域技術,以及當今比較火熱的Hadoop/Spark生態圈提供的各類分佈式數據分析、數據挖掘、推薦系統等工具。其中前者相關技術一般來講比較專有化,大都由相似IBM這樣的商用軟件公司負責,並不具有太多理論研究價值;後者則是這幾年大數據領域興起的產物,通常咱們所說的電力大數據,都是和這些技術息息相關。有興趣的讀者可關注Hadoop、Spark生態圈,某種程度上來講,電力大數據就是這些技術在電力行業的應用:

        很是有趣的是,上述這兩類關鍵技術所表明的公司近幾年開始有了"融合"的趨勢。IBM等傳統數據領域巨頭開始擁抱Hadoop、Spark等開源工具,而一些大數據領域的巨頭公司,如阿里雲,也開始注重其大數據平臺上的元數據管理,主數據管理,數據生命週期等傳統數據管理話題。相信不久之後就能看到他們碰撞的火花~(~o ̄▽ ̄)~o

智能電網中的大數據案例:大電網中的居民用電負荷預測

        對居民用電負荷作預測是電網公司的經典需求,它能爲電網調度中心提供決策支持,能指導發電廠給出指導意見,還有助於電力系統提高安全性和穩定性:好比"重點關照"負荷較大區域的輸電設備和線路。這個需求也是如今大數據在電力行業應用得較爲成功的一個案例,目前應該有不少乙方公司來作了,但具體的效果如何筆者還不是特別清楚,歡迎同行來和我交流探討。

        該系統的整體思路是對每一個用戶進行獨立預測,最後累加獲得各區域或者電網總用電量,整體步驟以下圖:

        1. 負荷曲線聚類分析

        使用聚類技術將各用戶用電規律相近的負荷日期歸爲一類。聚類的特徵可設定爲和用電有關的全部因素;聚類結束後,應使用可視化的方式觀察不一樣簇內的負荷曲線是否是長得比較像,不是的話請調整簇個數。

        PS.系統的研究對象是日負荷曲線而不是用戶,這點請讀者不要搞混。

        2. 確立關鍵影響因素

        採用關聯分析(如灰色關聯度)的方法肯定對負荷影響最大的幾個因素。通常來講,氣溫、風速、雨量等是對負荷的影響比較大。如何提取關鍵特徵是數據挖掘領域一個比較熱門的話題,R語言、Ptyhon、Mahout、MLLib都應該有封裝好的實現,讀者也可前往有關技術交流羣和同行進一步交流探討,本文點到爲止。

        3. 創建分類訓練集

        這一步工做將基於1和2的結果產出後面用於預測負荷曲線所屬分類的訓練集。新的訓練集的特徵是2中選中的關鍵特徵,標籤則是1中日期負荷曲線的聚類結果。

        4. 將待預測日分類

        提取待遇側日的關鍵特徵,以3中構建的新訓練集爲基礎進行分類,判斷出當前負荷曲線所屬類別。好吧,讀者有沒有發現1-4的過程其實就是一個【無監督在線分類學習】過程。

        5. 訓練預測模型並預測

        選擇訓練集中待預測日所屬分類(4中計算得出)的子集爲新訓練集,對待預測日的負荷進行迴歸預測。可考慮採用線性迴歸、SVR、GBDT等迴歸算法,而特徵依然選定爲2中提取出的關鍵特徵。

        6. 計算電網負荷

        利用Hadoop/Spark大數據平臺對全部用戶進行預測,並累加獲得電網系統的負荷狀況。至此,該系統就能預測出將來電網各區域,總區域的總用電負荷。

智能電網中的大數據案例:基於海量紅外圖像分析的電氣設備故障檢測

        近些年來,愈來愈多的智能變電站採用智能機器人、無人機進行巡檢。這些巡檢設備經過高清攝像頭、紅外攝像頭等捕獲輸變電設備的可見光、紅外等設備檢測圖像。經過對設備紅外成像的分析,咱們能獲知設備各區域的溫度狀況,進而對設備故障進行分析。

        用較爲專業的話來講,該系統是"利用非接觸式的紅外熱成像儀實現電器設備的在線監測,得到實時的紅外圖像,並提取電氣設備典型溫度數據,在此基礎上創建電氣設備溫度的歷史和實時數據庫,再結合數據挖掘技術,最終創建電氣設備故障診斷與報警自動決策系統"。聽起來很流弊(☆゚∀゚)。

        其實該系統的整體架構並不算很複雜,以下圖所示:

        1. 將海量紅外圖像存放到HBase數據庫裏。HBase是分佈式的NoSQL數據庫,是Hadoop生態圈裏的標杆項目之一,有關它以及NoSQL數據庫介紹請讀者自行查閱有關資料。

        2. 採用MapReduce的方式訪問該數據庫,以數據並行化的方式對各個圖像進行預處理。這一步將矩陣格式的圖像轉換爲指定規則的向量,並對採用人工方式對其中一部分抽樣圖像打上標籤(正常/故障0/故障1...)。

        3. 最後採用神經網絡或者SVM等算法對格式化後(未被標記)的紅外圖像進行故障分類預測。相比於2,這一步的並行能夠稱之爲任務、或者計算並行。

小結

        隨着科技的不斷進步,各類各樣的數據(傳感器數據、設備數據、用電數據、資產數據......)都將更快更準地彙總到電網的數據中心,構建電網新一代數據工程愈來愈迫切。說得通俗些,咱們將散佈在南方五省區域的全部數據聚集起來,造成資產化的管理,直觀地可視化分析,對大電網的一切瞭若指掌,這不是一件頗有意義的事情嗎

        另外一方面,大數據在電力行業的發展頗有潛力。據筆者瞭解,除本文講到的兩個案例,目前電力大數據的應用還有很多,如配電網低電壓預測、線損計算分析、乃至電力資產系統、語音投訴系統等。但因爲一些傳統緣由,應用的深度遠遠不夠,電網距離"多指標,自趨優"的終極目標也還很遠,同志們仍須努力。

相關文章
相關標籤/搜索