1、引言html
信息技術革命與經濟社會活動的交融催生了大數據。2015年8月,國務院印發了《促進大數據發展行動綱要》,把大數據做爲基礎性資源,全面實施數據強國戰略,加快推進數據資源共享開放和開發應用,助力產業轉型升級和社會治理創新。與此同時,我國公安信息化建設發展迅猛,公安市場大規模的信息化和裝備投資產生了海量的結構化和非結構化數據,包括軌跡信息、工做信息、多媒體信息等。據不徹底統計,截至2015年末,全國公安機關掌握的數據資源已達數百類、上萬億條、EB級的大數據規模。同時,數據產生聚集的速度愈來愈快,數據呈階梯式增加。目前,公安數據的年增加率超過50%,增加速度遠超以往任什麼時候期。公安數據既有傳統的結構化數據,也有大量文檔、圖片、視頻、柵格、矢量、文本等非結構化數據,數據結構、存儲方式多種多樣。公安數據中蘊藏着人、事、物、組織和案件等豐富的信息,充分利用這些信息,挖掘海量數據背後隱藏的關聯關係,對於維護社會大局穩定、預防和打擊犯罪、輔助指揮決策都具備重要的價值。算法
各級公安機關快速積累並不斷增加的信息數據已成爲繼警力資源、裝備資源以後的新一類核心資源。如何有效利用海量信息並挖掘內在更大的價值,成爲提高公安實戰應用能力、創建立體化綜合防控體系面臨的重大難題。政法委書記孟建柱同志指出「誰率先擁有、善於利用大數據,誰就能掌握主動、贏得將來」,郭聲琨部長也強調「要大力增強大數據時代公安基層基礎工做,不斷提升維護公共安全和服務人民羣衆的能力水平」。公安信息化「十三五」規劃已將雲計算、大數據等新技術應用做爲優化基礎性技術設施、提高信息化支撐能力的重要建設內容。數據庫
2、大數據相關概念安全
大數據是以容量大、類型多、存取速度快、應用價值高爲主要特徵的數據集合,正快速發展爲對數據巨大、來源分散、格式多樣的數據進行採集、存儲和關聯分析,從中發現新知識、創造新價值、提高新能力的新一代信息計算和服務業態。網絡
大數據的特色能夠用4個V來歸納:第一,Volume,數據體量巨大,從TB級別,躍升到PB級別;第二,Variety,數據類型繁多,包括網絡日誌、視頻、圖片、地理位置信息等等;第三,Value,價值密度低,以視頻爲例,連續不間斷監控過程當中可能有用的數據僅僅有一兩秒;第四,Velocity,處理速度快,在數據量很是龐大的狀況下,也可以作到數據的實時處理。最後這一點也是和傳統的數據挖掘技術有着本質的不一樣。這4個V對應了大數據領域中核心的4類技術,即大數據存儲、大數據治理、大數據挖掘、大數據計算。隨着近年來技術的發展,爲大數據的處理提供了可能,也爲公安工做思路創新提供了新機遇。數據結構
3、公安大數據平臺架構架構
公安大數據應用是基於雲計算平臺構建基於全警採集、全警共享的統一的大數據平臺,爲實現智慧警務提供核心支撐能力。公安大數據平臺架構如圖1所示。機器學習
公安大數據平臺分爲接口數據層、數據匯聚層、數據庫資源池、共享服務層、數據應用層、門戶層六大層次。分佈式
接口數據層:提供公安內部數據、社會採集數據的接口引進管理。工具
數據匯聚層:提供社會數據、公安內部數據的採集交換、加工整合和數據治理功能。
數據庫資源池:創建各種數據資源整合加工的成果存儲管理機制,提供臨時緩衝庫、數據標準化庫、細節沉澱庫,以及衍生數據庫和資源應用庫。
共享服務層:提供數據資源的統一共享和服務管理功能,包括服務接口、接口配置功能、服務資源目錄、資源服務總線和服務資源監控等功能。
數據應用層:資源應用層主要包括:綜合查詢、搜索引擎、數據比對、布控預警、分類統計等經常使用功能,以及趨勢分析、異常分析、相關性分析等挖掘功能。
門戶層:提供單點登陸、應用導航、信息發佈、交流反饋等功能,並實現與外界的統一交互。
4、公安大數據建設主要內容
(一)公安大數據資源規劃
當前,通過金盾工程建設與應用積累,公安已經沉澱了海量數據資源,創建了多個實戰業務應用系統,以資源整合共享理念爲基礎,創建了資源服務平臺,造成了公安八大資源庫。因爲業務需求和業務理解不一樣,各業務應用系統中存在同名數據項實際業務含義不一樣,同業務含義的數據項名稱不一樣,同義數據項的數據類型、長度等格式定義存在差別等狀況,形成公安信息資源共享、關聯應用的困難。
制定統一的公安信息資源目錄體系和公安元數據標準,搭建信息資源服務平臺,從源頭上規範數據採集、整合和共享服務;基於業務屬性開展人員、物品、案件、地址、組織、服務標識等主題域模型的細化設計,對數據進行科學、合理、標準的規劃;創建數據邏輯集中、物理分佈,全景邏輯一體化應用的公安大數據體系,是公安大數據發展的基石。
(二)公安大數據聚集
依託公安雲計算環境的創建,經過公安內部數據接口實現與網綜平臺、警綜平臺、PGIS平臺、情報綜合平臺、治安防控平臺、三臺合一接處警系統、監所繫統、出入境系統、卡口數據庫、視頻數據庫以及其餘相關警種部門業務系統的數據交換。另外一方面,經過公共信息共享交換平臺接入社會外部單位的業務系統數據,如民航鐵路訂票系統、酒店旅店住宿系統、公路客運系統、通訊運營商系統、工商稅務系統、民政司法系統、社交媒體系統、電商系統、教育宗教等系統的外部數據。經過數據資源共享機制爲各種情報應用系統提供數據資源支持。
(三)公安大數據管理
構建端到端、可視化的數據採集聚集和整合加工體系,並基於元數據技術,實現結構化數據、非結構化數據的一體化管理,涵蓋數據採集、數據加工流程調度、數據質量管控等數據處理環節。
元數據管理:經過統一的平臺元數據管控,實現對平臺各種數據標準、定義、關係及規則等的集中管理和統一服務,確保平臺數據運行的規範化、標準化、可視化。
數據質量管理:經過標準化的規則管理和調度控制,創建各種數據稽覈手段、數據質量分析體系,確保平臺數據一致性、完整性、合規性。
提供端到端的加工流程管控體系,採用體系化、標準、可重複的監管機制和執行流程,保證數據加工的統一及數據流程的透明性,保障數據質量及數據可用性,實現管理數據從採集、加工、存儲、應用、歸檔到最終刪除等一系列處理環節中的可視化、配置化、易調控,完成端到端的數據透明管控。
利用業務流程驅動機制,使各個數據處理節點的控制要素有機實現鏈式觸發,提高平臺數據管控的運營能力和效率,實現平臺與內部系統及外部環境的信息數據共享。
(四)公安大數據服務
公安大數據平臺對外發揮價值的核心是提供種類豐富、類型多樣的服務接口和服務能力。從服務類型來看,可分爲通用類服務、研判類服務和智能類服務。
通用類服務:在大數據平臺提供的數據資源基礎上,結合分佈式計算、可視化分析和展示等技術,可實現綜合查詢、搜索引擎、數據比對、布控預警、分類統計等經常使用功能,以及趨勢分析、異常分析、相關性分析等挖掘功能。
研判類服務:基於大數據分析挖掘,實現各種戰法集市、積分預警模型、全要素分析工具、社交網絡分析、隱性重點人挖掘、治安態勢分析等綜合情報研判功能。
智能類服務:綜合情報研判功能,實現案件多維分析、人流激增預警、犯罪預測模型、人員智能畫像、涉恐係數分析、人員親密度模型分析等功能。
5、公安大數據關鍵技術
(一)公安資源融合技術
採用分佈式大數據協同技術,實現「物理分佈、邏輯統一」的數據管理,解決數據資源分佈在多個地理分佈的數據中心開展數據資源綜合應用的問題;經過批處理和流處理引擎,實現對離線批處理的複雜處理和對流式數據的高速處理,爲警務分析提供實時/準實時的快速處理能力;經過存儲技術、分佈式文件系統技術實現對複雜多結構數據的管理與分析,支持傳統的Schema數據、Schema-free數據和視頻/音頻/圖像數據的分析與管理。
(二)數據治理技術
數據治理是指從使用零散數據變爲使用統一主數據、從具備不多或沒有組織和流程治理到機構全業務範圍內的綜合數據治理、從嘗試處理主數據混亂情況到主數據層次分明的一個過程。
公安大數據平臺建設引入數據治理的核心思想和技術,從制度、標準、監控、流程幾個方面提高數據信息管理能力,解決數據標準問題、數據質量問題、元數據管理問題和數據服務問題。
(三)數據挖掘技術
數據挖掘是從數據中自動地抽取出模式、關聯、變化、異常和有意義的結構。根據數據挖掘的任務可分爲多種類型,比較典型的有關聯分析、分類分析、聚類分析、序列分析等。
關聯分析:是在關係數據中,發現存在於項目集或對象集之間的關聯規則,包括關聯、相關性、因果結構或頻繁出現的模式。經常使用的關聯分析算法有Apriori算法及它的各類改進或擴展算法。
分類分析:分類是實現定義好類別,屬於有指導學習範疇。分類分析是根據數據的特徵爲每一個類創建一個模型,根據數據的屬性將數據分配到不一樣的組中。經常使用分類算法有決策樹、神經網絡、貝葉斯分類等。
聚類分析:是按照某種相近程度度量方法將數據分紅互不相同的一些分組,實現每一聚類內部的類似性很高、各聚類之間的類似性很低。經常使用的聚類算法有K均值、最近鄰、神經網絡等。
預測模型分析:是從數據庫或數據倉庫中已知的數據推測位置的數據或對象集中某些屬性的值分佈。創建預測模型的經常使用方法包括迴歸分析、線型模型、支持矢量集、決策樹預測、遺傳算法、隨機森林算法等。
文本挖掘:文本是無結構或半結構化的數據,文本挖掘是從文本數據中推導出模式,其過程是經過文本分析、特徵提取、模式分析的過程來實現。主要技術包括文本結構分析、文本特徵提取、文本檢索、文本自動分類/聚類、文檔自動摘要、話題檢測與追蹤、文本過濾、文本情感分析等。
(四)可視化分析技術
可視化分析主要應用於海量數據關聯分析,因爲所涉及的信息比較分散、數據結構不統一,分析過程存在非結構性和不肯定性,不易造成固定的分析流程或模式,很難將數據調入應用系統中進行分析挖掘。藉助可視化數據分析平臺,輔助人工操做將數據進行關聯分析,並作出完整的分析圖表。圖表中包含全部事件的相關信息,也完整展現數據分析的過程和數據鏈走向。
6、公安大數據應用
——以涉恐等爲例
(一)涉恐係數
涉恐係數應用以部級信息資源服務平臺聚集的數百億條數據做爲數據基礎,應用機器學習等大數據技術,提煉反恐業務特徵數據項,學習已掌握的涉恐人員數據,提出人員刻畫六維模型,即從身份特質、行爲偏好、關係網絡、不良記錄、時空軌跡、經濟情況六個維度描述和刻畫一我的。每個維度上又包含了大量具體的特徵。在此基礎上,構建造成涉恐人員標籤體系和涉恐係數綜合計算模型,經過大數據分析處理實現對千萬級目標羣體的涉恐機率計算。
某市公安局根據涉恐係數計算結果,對23人進行落地核查和跟進管控,覈查出涉恐人員7人,取得了較好的預警效果。
(二)犯罪預測
犯罪預測應用利用大數據技術,自動抽取警綜平臺內案事件、人口、地理、天氣、房價等數據進行智能建模分析,預測當天轄區案件的高發區域及發案機率,把須要重點防控的區域以簡明扼要的圖形界面直觀地凸顯出來,科學引導一線巡防。
犯罪預測應用使用的數據集包括了警務綜合平臺的接處警、案事件、人口等39類公安業務數據,以及地理、天氣、房價等11類社會時空地理信息,共約8億條數據。與傳統數據分析採用抽樣數據不一樣,大數據預測是用全量數據。經過機器學習,發現各種因子與警情的相關性,造成預測模型,不斷用數據檢驗預測結果,修正完善造成最佳的預測模型。
某市公安局下轄各派出所採用犯罪預測系統三個月後,統計入室盜竊類違法犯罪警情由2814起降低至2520起,同比降低10.5%。
(三)警務監督管理
警務監督管理應用利用大數據技術,構建預防腐敗工做「1+3+X」大數據技戰法模型,經過抽取有關業務系統高風險項目監測點數據,對業務工做、隊伍管理等信息開展關聯碰撞、分析研判、預警提示,重點解決傳統監督手段進不了系統、系統之間信息關聯不夠、違紀違法苗頭難以及時發現等問題,達到預防腐敗工做抓早抓小、防患未然的目的。
某市公安局紀委針對近年來查辦的民警利用職務之便,違規將戶口遷入拆遷地區以非法獲利的案件,圍繞人口系統「辦理常駐戶口登記」權力運行中容易發生問題的風險點,關聯派出所綜合信息系統、警力資源信息系統、執紀辦案信息系統、投訴舉報信息系統的信息資源,對2013年以來某派出所辦理戶口數據進行分析,發現了18名民警將本人戶籍由原來的城鎮居民戶口(樓房),遷入農村重點拆遷地區的異常狀況。
7、結論
隨着公安信息化建設與應用的不斷深化,公安機關掌握的數據資源的廣度和深度正在快速擴大,各警種業務對大數據的依賴性愈來愈強,對大數據定製服務、模型研發的需求愈來愈多,要求愈來愈高。實施公安大數據戰略能夠順應信息化條件下公安實戰需求,增強對公安內外部數據資源的匯聚、清洗、管理、挖掘分析等工做,爲各警種提供更高質量、更有針對性的大數據定製服務,爲公安中心工做提供更有力的支持和保障。本文主要對此進行了分析和描述,介紹了大數據的概念、平臺架構和重點內容,爲公安大數據應用提供借鑑。
來源:警察技術雜誌