機器學習與內部威脅

最近,關於企業內部威脅的討論成爲網絡安全的一個熱門話題。本文參考國外的相關資料,拋磚引玉,力圖爲國內同行提供關於網絡安全的參考信息。算法

在企業內部,由有各類訪問權限的員工、合同工、供/承包商和設備供應商構成了企業的內部人員(insider),由他們引發的任何威脅都稱之爲內部威脅(insider threats)。內部威脅之因此很快引發重視,緣由很簡單:其一,在徹底被信任的內部一旦產生威脅,形成損失的程度遠遠大於來自外部的;其二,內部威脅很難被發現。傳統的安全措施,例如白名單/黑名單阻止訪問、IP過濾、添加防火牆和檢測等,這些技術的核心都是基於信任域的創建,旨在將威脅拒之門外。可是當威脅來自內部,他們就很難發揮做用。處理內部威脅須要有徹底不一樣的策略。數據庫

衆所周知,目前應對內部威脅的有效方法是監控內部人員的上網行爲並發現其中的異常,這些異常行爲中可能具備真正的安全威脅。信息安全和風險管理領域的從業者愈來愈關注行爲分析技術,並在其基礎上開發內部威脅防禦解決方案,員工/用戶活動監控(UAM)、用戶和實體行爲分析(UEBA)、數據防泄漏(DLP)等細分安全垂直領域的產品或多或少都包含了行爲分析功能。機器學習和人工智能也開始以行爲分析的創新者出如今不少產品的技術白皮書上,試圖成爲新一代信息安全領域的智能專家解決方案。安全

爲何機器學習在檢測內部威脅方面能發揮很大做用呢?企業內部威脅的表現形式各不相同,其產生的根源多是惡意的,也可能來自無心或偶然的行爲:心懷不滿或壓力大、無做爲、內外勾結、尋求曝光度、任性魯莽、準備離職,甚至是其餘無心但卻無知的行動,這些內部員工的行爲都是潛在的威脅風險。即便咱們知道要監控尋找的目標內容,但從企業海量活動日誌中發現內部異常行爲的點,而且將這些點關聯起來得到完整的上下文,對於人工操做來講基本上是不可能的。當企業用戶數量很大,須要監控的點變成數十萬個,甚至超過數百萬個的時候,發現內部威脅的難度就可想而知了。機器學習剛好就是這樣一種能夠很好地處理這樣的業務場景,在如此之大的數據集上創建基線並據此找到異常的有效方法。網絡

機器學習的一個優點是該技術能夠基於多個數據源尋找關聯線索,例如,機器學習能夠標記爲有風險的某內部人員做爲起始索引查看分析其在企業內部相關聯的全部行爲:網絡登陸/註銷時間、位置數據、文件傳輸行爲、社交媒體互動、工做績效、旅行歷史記錄等,基於以上查看、分析工做等,向企業安全運維人員發出合理的警報通知,而且使用其餘更多的分析工具(例如SIEM)進行更進一步的深刻調查,以確認該行爲是真正的安全事件或風險,或正常業務的「誤報」(譬如員工分配了新項目,觸發了該用戶以前未執行的一系列行爲活動而產生的警報)。分析師的最終審查和決定應該反饋給分析系統,以提升機器學習檢測算法的準確性。併發

當用於檢測企業內部威脅時,機器學習算法如下的優勢獲得充分發揮:框架

一、監督需求的減小運維

機器學習的自動化屬性,大大減小了數據分析工做中對人工監督的需求。設置完成後,系統能夠自動處理那些包括「發現」和「分類」等的大多數分析任務,在某些狀況下,甚至能夠對特定異常行爲採起自動響應措施。機器學習

二、優異的可擴展性ide

機器學習能夠處理來自多個數據源的海量數據,這個屬性使其適合於大規模部署。實際上,數據集越大,系統能夠「學習」的效果就越好。工具

三、高效的關聯和迴歸

機器學習可以以人工操做沒法達到的速度和效率來作數據的查找和分類工做,算法也長於從大量背景噪音中精確尋找到有效信號,這些屬性都很是適合將用戶的個別異常行爲從其大量的正常活動中識別出來。

四、「誤報」數量的減小

將無害行爲誤認爲是惡意行爲於是致使「誤報」的產生,這是目前安全分析系統的最大問題,大量技術上非誤報而業務上的「誤報」浪費了企業安全運維人員時間和精力。更糟糕的是,當安全團隊不斷收到相同的錯誤警報時,「狼來了」的故事就會重演,即當真正的安全威脅事件發生時每每會被忽略。而機器學習領域中諸如決策樹、基於規則的分類、自組織圖、聚類等多種算法技術均可以用來在提供可靠的安全性前提下作到減小「誤報」。

五、更快的檢測和響應速度

正是當今不斷優化的模型算法和硬件技術,爲機器學習提供了對海量數據進行高效分析和異常檢測的可能,進而使得企業能夠利用機器學習更快更好地發現企業內部威脅。

六、持續不斷的優化提升

這多是在網絡安全領域中使用機器學習技術最有價值的地方。天生具備自我演化發展屬性的機器學習能夠經過處理更多的案例,同時從人工干預中得到更多合理反饋,所以系統自己能夠獲得持續完善優化。更重要的是,做爲一種新興技術,目前機器學習領域中還處在突飛猛進的優化提升中,該屬性與企業網絡安全的發展也很是匹配。由於企業內部威脅也在無時無刻不斷髮展中,咱們偏偏須要可以與之並駕齊驅、持續不斷更新安全解決方案。

行爲分析、威脅檢測、分類和風險評分這些工做的實際過程很複雜,其複雜程度具體取決於所使用的機器學習算法,可是大多數系統使用的通用方法是「異常檢測」。這個方法的思路是:正常的用戶行爲應與他所在的羣體或他本人過去行爲(稱爲基線)相匹配,偏離此基線發生的事件就是異常行爲。通常狀況下,這種異常多是欺詐、破壞、內外串通、數據盜竊或其餘惡意意圖的行爲。算法一旦檢測到行爲有誤差,即可以標記該事件作進一步調查,或者也能夠設計爲將該事件與過去記錄的相似事件進行比較。這些以前的記錄是基於培訓數據或共享知識庫(多個企業共享威脅情報等數據庫)上執行監督算法的結果。在這個監督算法中,安全運維人員須要人工標記以區分「正常」或「異常」。在最終的輸出結果中,展示的威脅記錄具備風險評分屬性,包括行爲頻率、涉及的資源、潛在影響、影響的節點數及其餘變量。

將機器學習技術很好地應用於企業內部威脅的系統檢測,須要仔細考慮和認真實現如下基本步驟:

一、數據特徵輸入

做爲數據分析的一種技術,機器學習(數據分析)的第一步一樣是用戶和實體的行爲數據集的輸入,這個數據集即被系統監控分析的對象。例如應用程序/網站、電子郵件、文件系統、網絡、元數據(例如監視時間)、用戶角色/訪問級別、內容、工做時間表等,輸入的數據粒度越精細,系統的準確性就越高。

二、數據特徵分類標籤

這能夠經過預約義的靜態分類標準列表(例如PII,PHI,PFI,代碼片斷code snippets等),半動態列表(例如文件屬性和來源)或使用OCR類型技術動態地在數據傳輸時發現並標記來完成。監督和非監督分類算法能夠被用來基於這些列表參數過濾分析原始數據。例如,在過濾敏感文件的監督分類算法中,能夠將「文件上載」參數做爲輸入標準,而使用文件屬性/標記「機密」參數做爲輸出標準。

三、用戶肖像構建

諸如用戶角色、部門/組、訪問級別等信息將從員工記錄、HR系統、Active Directory、系統審覈日誌、數據倉庫中的切塊數據及其餘相關數據源中提取,這些能夠用於行爲分析模型中的個性化配置,或以後與企業的訪問控制和特權管理系統集成。

四、行爲分析模型生成

不一樣的機器學習算法(例如特徵提取,特徵值分解,密度估計,聚類等)生成不一樣的行爲分析模型,與之相關的統計/數學框架也須要進行優化調整。例如,基於迴歸的模型可用於預測將來的用戶行爲或發現信用卡欺詐,羣集算法可用於比較業務對象的合規性(偏離合規)。

五、基線的持續優化

行爲分析模型生成基線後,用好機器學習還須要完成一個重要的工做,即根據特定業務目的進行優化調整。譬如添加時間或頻率份量以在不一樣的誤差水平上觸發相關規則,定義合適的風險評分等。也能夠經過額外的過濾來提升算法的效率並減小「誤報」數量。例如在網站異常檢測中添加域過濾條件以減小須要更深一步檢查的安全事件的數量。幾乎在全部的狀況下,我的、小組/部門或企業等不一樣級別生成的分析基線均可以作相似的優化。

六、與安全產品策略和規則整合

根據模型產生的行爲基線用於識別威脅並在發生異常狀況時觸發警報。某些員工監控、UEBA、DLP產品將這些行爲基線與產品的策略和規則引擎集成,試圖可以主動防護威脅的發生。這些策略和規則引擎支持如下操做:警告用戶、阻斷流量、通知管理員、執行特定命令或從新記錄以作審計溯源調查之用。

七、人工反饋優化

到目前爲止,不管機器學習系統有多麼出色,仍然不可避免錯誤的發生:產生誤報或漏報威脅。當前的技術還沒法實現對人類行爲的徹底精準建模,因此,安全運維人員還不得不評估和進一步人工分析機器學習系統的輸出。幸運的是,機器學習系統可以響應人工的輸入,經過足夠多的人工反饋,系統的準確性會不斷優化,隨着時間的推移,系統須要的人工干預會愈來愈少。

行爲分析和機器學習雖然有不少優點,但也有必定的侷限性,並非應對內部威脅的靈丹妙藥,利用機器學習的最佳方法是將其視爲企業安全工具箱中的一種(功能很強大的)。隨着所面臨的威脅形勢的發展趨勢變化,企業須要可以應對來自內部威脅的動態(非靜態)技術,像惡意用戶、間諜、破壞、欺詐、數據和IP盜竊、特權濫用以及其餘難以識別的風險等,而機器學習正是朝着這個正確方向發展的前途無限的技術!

關於全息網禦:全息網禦科技融合NG-DLP、UEBA、NG-SIEM、CASB四項先進技術,結合機器學習(人工智能),發現並實時重構網絡中不可見的」用戶-設備-數據」互動關係,推出以用戶行爲爲核心的信息安全風險感知平臺,爲企業的信息安全管理提供無感知、無死角的智能追溯系統,高效精準的審計過去、監控如今、防患將來,極大提升IT安全運維和安全人員響應事故、抓取證據鏈、追責去責無責、恢復IT系統的能力和效率。

相關文章
相關標籤/搜索