【引言】這篇文章原載於內刊,現發佈於此。內容有所刪減。數據庫
基於大數據分析的安全管理平臺技術研究及應用安全
Research and Application of Big Data Analysis Based Security Management Platform網絡
Last Modified By yepeng @ 2014-1-14架構
【內 容摘要】本文首先經過介紹大數據的原由,給出了大數據的定義和特徵描述,並簡要說明了當前大數據的研究概況。接下來,本文闡釋了大數據分析技術,對大數據 在信息安全領域尤爲是安全管理平臺領域的應用作了深刻分析,並給出了基於大數據安全分析技術的安全管理平臺的基本特徵。最後,針對一個基於大數據安全分析 技術的新一代安全管理平臺從5V角度進行了深刻介紹,並強調了安全分析師的關鍵做用。框架
無所不在的大數據
分佈式
毫無疑問,咱們已經進入了大數據(Big Data)時代。人類的生產生活天天都在產生大量的數據,而且產生的速度愈來愈快。根據IDC和EMC的聯合調查,到2020年全球數據總量將達到40ZB。工具
什 麼是大數據?大數據早就存在,只是一直沒有足夠的基礎實施和技術來對這些數據進行有價值的挖據。隨着存儲成本的不斷降低、以及分析技術的不斷進步,尤爲是 雲計算的出現,很多公司已經發現了大數據的巨大價值:它們能揭示其餘手段所看不到的新變化趨勢,包括需求、供給和顧客習慣等等。好比,銀行能夠以此對本身 的客戶有更深刻的瞭解,提供更有個性的定製化服務;銀行和保險公司能夠發現詐騙和騙保;零售企業更精確探知顧客需求變化,爲不一樣的細分客戶羣體提供更有針 對性的選擇;製藥企業能夠以此爲依據開發新葯,詳細追蹤藥物療效,並監測潛在的反作用;安全公司則能夠識別更具隱蔽性的攻擊、入侵和違規。oop
圖:硬盤每GB的成本變化(1980-2009年)【來源:http://www.mkomo.com/cost-per-gigabyte】性能
《華爾街日報》將大數據時代、智能化生產和無線網絡革命稱爲引領將來繁榮的三大技術變革。麥肯錫公司的報告指出數據是一種生產資料,大數據是下一個創新、競爭、生產力提升的前沿。世界經濟論壇的報告認定大數據爲新財富,價值堪比石油。大數據
不論從技術、仍是商業角度,大數據都成爲當下絕對的熱點。2013年,Gartner將大數據列爲將來信息架構發展的10大趨勢之首。Gartner預測將在2011年到2016年間累計創造2320億美圓的產值。
大數據的定義
如 何定義大數據?《大數據的衝擊》一書將大數據通俗定義爲「用現有的通常技術難以管理的大量數據的集合」,並廣義地定義爲「一個綜合性概念,它包括因具有 3V(海量/高速/多樣,Volume / Variety/Velocity)特徵而難以進行管理的數據,對這些數據進行存儲、處理、分析的技術,以及可以經過分析這些數據得到實用意義和觀點的人 才和組織。」
Gartner將大數據定義爲「海量、高速、多變的信息資產,須要對它進行經濟的、創新性的信息處理從而得到超越以往 的洞察力、決策支持能力和處理的自動化」(high volume, velocity and/or variety information assets that demand cost-effective, innovative forms of information processing that enable enhanced insight, decision making, and process automation)。
大數據的基本特徵
大數據的三個公認的基本特色是3V,即海量、高速和多變。海量是指數據容量愈來愈大;高速表示須要處理的速度和響應的時間愈來愈快,對系統的延時要求至關高;多變就要處理各類各樣類型的數據,包括結構化的、半結構化的、甚至是非結構化的數據。
IBM在上述三個特色基礎之上增長了一個V(Veracity),即「真實性」、「準確性」。IBM認爲只有真實而準確的數據才能讓對數據的管控和治理真正有意義。
此外,業界還有人總結出其它的大數據特色,例如低價值密度(Value)、存活性(Viability),等等。低價值密度是指大數據中真正有意義的信息含量比重低;存活性是指特定狀況下的大數據具備很強的時效性。
大數據的研究概況
在IT領域,大數據也是最熱門的技術領域之一。Gartner在2012年繪製的Hype Cycle曲線展現出了當前大數據技術欣欣向榮的一番景象。
Gartner將大數據相關技術分爲三個門類,分別是大數據支撐技術、大數據應用技術和針對新型數據進行分析的技術。
我國工程院院士鄔賀銓將大數據技術從所面臨的挑戰的角度分爲四個方面,分別是數據收集、數據存儲、數據處理和數據可視化。
微軟張亞勤將大數據劃分爲三個層次,分別是數據的管理、數據的擴充和數據的呈現。
IBM的Stephen Watt給出了一個大數據生態系統的模型,將大數據技術劃分爲7個部分,包括數據產生、數據存儲、數據處理、數據分享、數據檢索、數據分析、數據可視化,以下圖:
大數據須要數據分析師
以上全部針對大數據的定義和特色的闡述,都缺乏一個重要的大數據組成要素——數據分析師(或者稱爲數據科學家,Data Scientist)。在當前技術條件下,大數據分析的結果要想得到最大程度的價值發揮須要藉助專業的數據分析人員。
Natahn Yau首先提出「數據科學家就是可以從大型數據集中析取出數據,並提供某些可供非數據專家使用的東西的人」。《福布斯》雜誌認爲「數據科學家就是採用科學 方法、運用數據挖掘工具尋找新的數據洞察的工程師」。《哈佛商業評論》將數據科學家列爲二十一世紀最性感的職業。
這代表,大數據技術要發揮做用仍然須要人的參與,而且是專業的數據分析師的參與。
大數據安全分析
大數據分析的定義
大數據技術的核心就是大數據分析(Big Data Analysis)。通常地,人們將大數據分析定義爲一組可以高效存儲和處理海量數據、並有效達成多種分析目標的工具及技術的集合。
Gartner 將大數據分析定義爲追求顯露模式檢測和發散模式檢測,以及強化對過去未鏈接資產的使用的實踐和方法(the practices and technology used to pursue emerging and divergent pattern detection as well as enhance the use of previously disconnected information assets),意即一套針對大數據進行知識發現的方法。
通俗地講,大數據分析技術就是大數據的收集、存儲、分析和可視化的技術,是一套可以解決大數據的4V(海量、高速、多變、低密度)問題,分析出高價值的信息的工具集合。
大數據分析的基本技術支撐
從技術支撐架構的角度來看,大數據分析是一個軟件技術框架(Framework),主要包括如下能力:
1) 可以處理特別巨大的數據集(Volume)
2) 提供極快的數據插入操做(Velocity)
3) 可以操做多種數據類型(Variety)
4) 要支持實時數據分析和歷史數據分析
5) 提供多種數據分析方法/模型
6) 使用分佈式並行處理機制(Volume & Velocity)
其 中,大數據分析基本的特徵就是這個軟件技術框架應該具備一個分佈式開發框架。這個分佈式開發框架能夠是開源的Hadoop,或者其它具備類似分佈式並行計 算能力的框架,可以實現Map/Reduce計算,可以實現分佈式計算節點的統一調度和彈性部署。基於這個分佈式開發框架,實現海量數據的分佈式採集、分 布式存儲、分佈式分析計算。
大數據分析的另外一個技術支撐是海量數據的存儲技術。面對海量的數據,傳統的關係型數據庫已然沒法知足須要,須要進行改進或者革新。大數據分析系統的軟件技術框架必然會使用某種分佈式數據庫技術或者NoSQL(非關係型數據庫)技術。
此 外,一個實用的大數據分析系統通常都要同時具有實時數據分析與歷史數據分析能力。要得到歷史數據分析能力,一般就是藉助分佈式開發框架的 Map/Reduce批處理計算來實現。固然,有的大數據歷史分析系統還具有交互式計算能力(例如Google Dremel),實現快速查詢。而要得到實時數據分析能力,分佈式開發框架及其Map/Reduce計算模型就顯得力不從心了。這時候須要一個實時的流數 據處理引擎,一般是採用CEP(Complex Event Processing,復瑣事件處理)或者ESP(Event Stream Processing,事件流處理)技術的流數據處理引擎。
綜上所述,從開發者的角度來看,大數據分析的底層技術支撐包括三個:
1) 分佈式計算框架(例如Hadoop,或者其餘具備Map/Reduce機制的計算框架)
2) 分佈式存儲機制(例如分佈式數據庫、HDFS、NoSQL)
3) 流式計算框架(例如CEP、ESP)
從大數據分析到大數據安全分析
當 前網絡與信息安全領域,正在面臨多種挑戰。一方面,企業和組織安全體系架構日趨複雜,各類類型的安全數據愈來愈多,傳統的分析能力明顯力不從心;另外一方 面,新型威脅的興起,內控與合規的深刻,傳統的分析方法存在諸多缺陷,愈來愈須要分析更多的安全信息、而且要更加快速的作出斷定和響應。信息安全也面臨大 數據帶來的挑戰。
安全數據的大數據化主要體如今如下三個方面:
1) 數據量愈來愈大:網絡已經從千兆邁向了萬兆,網絡安全設備要分析的數據包數據量急劇上升。同時,隨着NGFW的出現,安全網關要進行應用層協議的分析,分 析的數據量更是大增。與此同時,隨着安全防護的縱深化,安全監測的內容不斷細化,除了傳統的攻擊監測,還出現了合規監測、應用監測、用戶行爲監測、性能檢 測、事務監測,等等,這些都意味着要監測和分析比以往更多的數據。此外,隨着APT等新型威脅的興起,全包捕獲技術逐步應用,海量數據處理問題也日益凸 顯。
2) 速度愈來愈快:對於網絡設備而言,包處理和轉發的速度須要更快;對於安管平臺、事件分析平臺而言,數據源的事件發送速率(EPS,Event per Second,事件數每秒)愈來愈快。
3) 種類愈來愈多:除了數據包、日誌、資產數據,還加入了漏洞信息、配置信息、身份與訪問信息、用戶行爲信息、應用信息、業務信息、外部情報信息等。
於 是,業界出現了將大數據分析技術應用於信息安全的技術——大數據安全分析 (Big Data Security Analysis,簡稱BDSA),也有人稱作大安全數據分析(Big Security Data Analysis)。二者儘管表述有差別,但內涵一致。前者強調基於大數據技術的安全分析,分析安全問題;後者強調大數據分析的對象是安全數據。
在網絡安全領域,大數據安全分析將包括如下幾個應用領域:
1) 安全事件管理和安全管理平臺:這將是大數據安全分析的核心應用,也被稱做安全分析平臺(Security Analytics Platform),後文將詳述。
2) APT檢測,包括全包捕獲技術
3) 0day惡意代碼分析,包括沙箱技術
4) 網絡取證分析
5) 網絡異常流量檢測
6) 大規模用戶行爲分析
7) 安全情報分析
8) 信譽服務
9) 代碼安全分析
2012 年3月,Gartner發表了一份題爲《Information Security Is Becoming a Big Data Analytics Problem》的報告,表示信息安全問題正在變成一個大數據分析問題,大規模的安全數據須要被有效地關聯、分析和挖掘,並預測將來將出現安全分析平臺, 以及部分企業在將來五年將出現一個新的崗位——「安全分析師」或「安全數據分析師」。
對 於大數據安全分析而言,最關鍵的不在於大數據自己,而在於對這些數據的分析方法。大數據安全分析能夠用到大數據分析的全部普適性的方法和技術,但當應用到 網絡安全領域的時候,還必須考慮到安全數據自身的特色和安全分析的目標,這樣大數據安全分析的應用才更有價值。例如,在進行異常行爲分析,或者惡意代碼分 析和APT攻擊分析的時候,分析模型纔是最重要的。其次,纔是考慮如何利用大數據分析技術(例如並行計算、實時計算、分佈式計算)來實現這個分析模型。
基於大數據分析技術的安全管理平臺
安全管理平臺呼喚大數據分析
在全部網絡安全領域中,大數據分析對安全管理平臺(SOC平臺)及安全信息與事件分析(SIEM)系統的影響最爲深遠。這也是與它們先天的大數據分析特質密切相關的。
安 全管理平臺,有的也稱做SOC(Security Operations Center,安全運營中心)平臺,通常是指以資產爲核心,以安全事件管理爲關鍵流程,採用安全域劃分的思想,創建一套實時的資產風險模型,協助管理員進 行事件分析、風險分析、預警管理和應急響應處理的集中安全管理系統。
安全管理平臺的核心之一即是安全信息與事件管理,也稱做 SIEM(Security Information and Event Management)系統。一般,SIEM爲來自企業和組織中全部IT資源(包括網絡、系統和應用)產生的安全信息(包括日誌、告警等)進行統一的實時 監控、歷史分析,對來自外部的入侵和內部的違規、誤操做行爲進行監控、審計分析、調查取證、出具各類報表報告,實現IT資源合規性管理的目標,同時提高企 業和組織的安全運營、威脅管理和應急響應能力。
下圖顯示了一個典型的SIEM系統的結構圖:
由圖可知,通常的SIEM系統都具備安全事件(日誌)的採集、範化、存儲、分析、展現等幾個過程,而這與大數據分析的收集、存儲、分析和可視化過程是徹底相同的。所以,SIEM自然具備應用大數據分析技術的特質。
安全管理平臺是在SIEM系統的基礎上,對採集的數據進行了大規模的擴充,並增長了分析模型,實現了基於風險的資產和業務的集中安全管理。
安全管理平臺的核心是多樣化的安全要素信息採集與存儲、多種安全分析與展現。而這與大數據分析的特徵也是徹底吻合的。
當 前,安全管理平臺的一個重要發展趨勢就是採集的安全數據種類愈來愈多,不只包括傳統的資產信息、事件信息,還歸入了漏洞信息、性能信息、流量信息、配置信 息、業務信息等等。與此同時,安全數據的產生速率和總量也急速增加。大型企業愈來愈傾向於採用集中化的安全管理平臺構建模式,單一管理平臺就要管理全網的 安全信息,安全事件產生的速率達到上萬EPS,甚至是上10萬EPS,天天存儲的事件量則達到上百GB,甚至是上TB。另外一方面,用戶須要安全管理平臺提 供更加精準的安全分析研判和問題定位,更加快速的安全應急響應與處置,對安全分析的準確性和分析結論價值度的要求愈來愈高。這一切都促使安全管理平臺的技 術開發者求助於大數據分析技術。
大數據安全分析首選安全管理平臺
SANS在2013年9月份發佈的《安全分析調查》報告顯示,客戶進行大數據安全分析的時候,首選的是日誌管理、SIEM等安全管理平臺類系統。而且,超過60%的受訪客戶表示將來實現安全分析目標的首要投資對象是SIEM。
因而可知,目前來講,在全部大數據安全分析的應用領域中,SIEM及其安全管理平臺是最重要的。
應該說,大數據分析技術並不能保證安全管理平臺可以應對上述挑戰,但卻給安全管理平臺應對這些挑戰提供了全新的技術思路和發展模式。當安全管理平臺趕上大數據分析,讓用戶和開發者看到了安全管理平臺將來技術發展的一個全新方向。
基於大數據安全分析技術的安全管理平臺基本特徵
基於大數據安全分析技術的安全管理平臺具備如下顯著特徵:
1) Velocity:高速日誌採集能力、高速事件分析能力;
2) Variety:支持多種日誌源和日誌類型,並支持對半結構化(例如原始數據報文、郵件、WEB請求與響應)和非結構化信息(例如可疑代碼)的採集,具有異構數據間的關聯分析(即情境關聯)能力;
3) Volume:海量的事件存儲能力、海量數據分析能力;
4) valuablity:分析研判的結果是真正有價值的信息、值得去關注的信息,是能夠用於輔助決策的信息。這就意味着須要有效的數據分析方法和工具;
5) Visualization:安全分析結果的可視化呈現能力。
必須至少同時知足上述5V,才能將一個安全管理平臺稱爲基於大數據安全分析技術的安全管理平臺。
基於大數據分析的新一代安全管理平臺介紹
【略】
小結
大 數據時代已經到來,咱們創造的大數據正在改變人類生產生活的各個方面。信息與網絡安全做爲保障IT數字資產的關鍵能力也正在被大數據所從新塑造。安全管理 平臺,做爲安全保障體系中位於頂層的技術支撐平臺,自然具備與大數據結合的特質。基於大數據安全分析技術的安全管理平臺正在成爲將來安全管理平臺發展的重 要技術方向。
同時,咱們必須看到,不論安全管理平臺的技術如何發展,如何與大數據結合,安全管理平臺所要解決的客戶根本性問題,以及與客戶業務融合的趨勢依然未變。對大數據的應用依然要服務於解決客戶的實際安全管理問題這個根本目標。
目前來看,大數據分析技術有助於咱們更好地去解決安全管理過程當中的部分問題,但並不能解決全部的問題,同時還可能引入了新的問題。這是安全管理平臺的開發者、服務提供者和客戶都須要不斷摸索的。
此 外,不論安全管理平臺技術如何發展,大數據分析給咱們帶來了多大程度的信息價值度提高,安全分析師始終是不可或缺的。正如大數據須要數據分析師,大數據安 全更須要安全分析師。安全,本質上是人與人之間的對抗,不論安全分析的自動化技術如何演進,相互之間進行對抗的,始終是坐在屏幕前的人。