政務是個大市場,阿里、騰訊、電信、華爲都在賠本賺吆喝。本文做者宇同窗是資深從業人士,研發總監,他會寫一系列文章來闡述政務雲全景。 sql
前面三篇分別深刻闡述:
政務大數據點本質:《 淺談政務大數據的本質》 數據庫
政務大數據的全景圖:《政務大數據的全景圖》安全
政務大數據的上下文範圍:《政務大數據的上下文範圍》分佈式
政務大數據的概念模型:《政務大數據的概念模型》ide
反響很是好,本篇接上一篇講講政務大數據的物理模型。但願你們會喜歡! memcached
後續還有一系列文章;敬請期待。
在《政務大數據的邏輯模型》一文中提到,政務大數據在物理上分爲「數據存儲、數據計算和數據服務」三個重要層面,其物理模型示意圖以下:工具
就政務大數據的物理模型總體而言,存儲層是技術基礎、計算層是核心能力、服務層是核心價值。立體、全方位(全面覆蓋數據訪問鑑權認證、數據安全傳輸和數據安全存儲等全過程&全生命週期)的安全保障機制與體系建設是政務大數據提供和使用服務的基本前提。綜合、系統化(充分運用系統工程思想,不斷提高、優化整個鏈條的價值再生&可持續能力)的運營支撐機制與體系建設是爲實現政務大數據「自治和自優化」這一最終目標作準備的。注:在《政務大數據的本質》一文中提到:「政務大數據的將來是數據自治」。oop
有關政務大數據的立體安全保障機制與體系建設將在後續文章《政務大數據的安全》中具體展開,有關政務大數據的綜合運營支撐機制與體系建設將在後續文章《政務大數據的運營》中具體展開,本文重點討論政務大數據的存儲、計算和服務三層物理模型。大數據
如同資源虛擬化是實現雲計算的重要具體技術,大數據也離不開數據倉庫、數據挖掘、決策支持、商業智能、分佈式計算等傳統IT技術。然而,大數據是一個更加綜合、龐雜的生態體系,它須要IT技術的支撐但不只僅是IT技術自己,其本質上仍是數據,是可以資源化的、有商業價值的數據。海量數據始終存在,但之前將其存儲起來是一個問題,隨着存儲軟硬件技術的發展,容量已經不是問題,能夠實際利用的海量數據就產生了。還有就是計算能力的快速發展,使得基於海量數據進行全樣本的計算和分析由不可能變成現實。具體到政務大數據而言,不少時候其體量並不大,緣由在於長期以來被人爲的按照地域、按照職能、按照主題、按照數據類型分割了。這種分割的現狀源於以前對全樣本數據進行存儲、通訊和計算的能力侷限,以及數據的價值密度太低而持有成本太高。隨着互聯網產業的快速發展,以及物聯網、工業4.0以及機器智能技術的不斷成熟,政務大數據具有了發展的土壤,也具有了發展的時機。歸根到底,政務大數據的核心價值在於政務優化(協同、治理、服務和決策)。若是政務優化比做一我的的綜合價值,存儲層就是其記憶的信息和知識(記憶力和記憶量),計算層是其學和作的能力(智商和反應能力),服務層是其結果規劃、產出能力(大局觀、情商和效率)。優化
政務大數據的存儲層從大的方面來說就是要解決好結構化和非結構化兩類數據的存儲問題。這兩類數據並不孤立,並且須要相互轉化:非結構化的數據每每須要將其屬性信息結構化,如視頻、圖像、聲音、文檔等非結構化數據所表達的主題、關鍵詞、人物對象等信息每每會以結構化的方式予以展示;同時,結構化的信息也須要轉換成非結構化的形式,好比企業或我的信用信息每每須要造成一份可讀的文檔型的信用報告,還有相似語音導航、智能設備的智能控制,根據矢量數據進行地圖繪製以及三維建模等都是在把結構化的內容進行非結構化。所以,結構化和非結構化數據是緊密聯繫的,也是能夠相互轉化的。不太認同劃分出第三類數據「半結構化」,基本上這類數據就是結構化數據和非結構化數據的混合模式。
鑑於政務信息資源的特色,其數據是結構化仍是非結構化每每取決於其原始來源和用途目的的綜合做用。如攝像頭採集的是圖形、圖像信息或者音視頻信息,在交通及治安執法時須要識別人物(人臉)、車牌,就須要把非結構化的圖像轉化爲結構化的信息。又如相關物聯網設備傳感器採集的溫度、溼度、pm2.五、甲醛等結構化數據,每每須要刻畫出圖文並茂的環境質量報告。再如公共資源交易信息,即有非結構化的標書、投標書、技術圖紙等數據,也有結構化的交易主體、交易過程及結果信息、評審專家信息等數據。結構化和非結構化混合是常態,分別開來的時候每每是場景不一樣。
從具體的數據庫管理平臺來說,傳統的數據庫如ORACLE、SQLSERVER、DB二、SYBASE、MYSQL、POSTSQL等以及達夢、人大金倉、南大通用等國產數據庫多爲關係型數據(SQL數據庫),適合存儲結構化數據、適合事務處理(強調ACID特性:Atomicity、Consistency、Isolation和Durability)。與之對應的是NOSQL(Not only Sql)數據庫,這個種類比較龐雜,廣義來說面向文檔的MongoDB、CouchDB等,圖形(Graph)數據庫Neo4j、AllegroGrap、GraphDB等,內存數據庫memcached、Redis、ROMA等,面向列的Cassandra、HBase等(強調CAP特性:Consistency、Availability和Partitiontolerance)。從某種程度上來說,NOSQL是在分佈式存儲的飛速發展和日益成熟而逐漸登上舞臺成爲SQL數據的重要補充的。固然,分佈式存儲並不是NOSQL數據的專屬,傳統的關係型數據庫也一樣對分佈式存儲有較好的支持。若是說分佈式計算本質是在充分共享利用關鍵計算資源和負載分擔,那麼對應於分佈式計算的分佈式存儲就是依賴於分佈式文件系統,來提升存儲能力的可擴展性。
在搭建政務大數據的物理結構時,能夠參考淘寶商城(採用阿里自主研發的Oceanbase和Tair),優酷(採用開放的HBase、MongoDB和Redis)等典型方案。考慮到結構化數據和非結構化數據的綜合支持以及自主可控的指標,也能夠採用國產數據庫組合方案(DM/GBase/KingbaseES/OpenBASE/神通數據庫等+SequoiaDB巨杉數據庫等)或者開放的存儲平臺(Mysql+HBase、MongoDB和Redis)以及基於全文檢索的ES(ElasticsSearch)/Apache Solr等。伴隨着雲計算的快速發展,致力於DaaS的雲數據庫也會成爲搭建政務大數據存儲層的重要選擇(前提是安全、自主和可控三者的良好平衡)。
政務大數據的計算層是圍繞着政務業務來展開的,政務大致上能夠分爲協同(G2G:政府對政府)、治理(G2S:政府對社會)、服務(G2C:政府對公衆&G2B:政府對企業)和決策(G2S:政府對社會)四個部分。其中,政務大數據的治理和決策是政府對社會的治理和決策的重要組成部分;政務協同是政府對外提供政務服務的基礎,政府各組成部門以及公務員之間經過工做協同使政務數據協同起來、聚合起來造成統一的政務信息資源庫。政務的治理過程既是政府對社會的監督、管理基礎上的治理,也是對政務信息資源庫的數據治理。政務的服務與決策是基於政務信息資源庫的,也是以政務協同和治理爲前提的。在提供服務和智慧決策的過程當中,政務大數據的做用十分重要。所以,在政務活動中產生的政務大數據的原始信息——政務信息資源庫,須要經過關聯分析、聚類分析、分類、預測、時序模式和誤差分析等數據挖掘技術以及信息組合、數學建模、相關性分析等數據計算。
政務大數據的計算層就是要把分散在各個原始存儲單元中的數據進行從新組合、運算造成更全貌、綜合或者更深層次、全新的數據價值。從政務的特色來看,其實時/準實時計算裏既包含面向業務分析的OLAP(實時在線分析),也包含面向業務的OLTP(實時事務處理);非實時[離線]計算裏,既包括面向業務分析的離線分析,也包括面向業務的離線處理。
就政務大數據而言,其計算層主要是面向業務分析的實時/準實時和離線計算。其中,政務大數據的離線計算還是適用數據倉庫基本理論:如維度表和事實表的深度融合構成維度模型;基於數據立方體實現五種基本操做(consolidation/roll-up、drill-down、slice、dice和pivot);融合了ROLAP[關係型]和MOLAP[多維]的HOLAP[混合型]分析;以ODS[Operational Data Store]爲主要存儲模式等)。政務大數據的離線計算能夠採用MapReduce分佈式計算模型(如Spark集羣計算環境)和Apache Hive基於Hadoop的數據倉庫工具;實時計算能夠採用Apache Storm+Redis來實現;日誌處理方面可同時使用Flume(日誌收集管道)和Kafka(分佈式消息隊列),日誌流向能夠從log到Kafka,再從kafka到Strom上,再由Flume去讀取日誌消息。
政務大數據的服務層是基於計算層的支撐來實現的,按照計算層的政務協同、政務治理、政務服務和政務決策四類政務大數據羣組,依次衍生出「協同流程、協同成效」,「治理體系、治理收益」,「服務提供、服務優化」和「政務研判、政務預測」等八大政務業務主題域。
其中,協同流程重點是提供政務活動的業務流程、過程數據支持,協同成效是對政務活動的價值評估、衡量,二者共同構成政務大數據在協同層面提供的數據基礎服務、增值服務和價值創新;治理體系是政務監管評價、綜合治理在政務數據層面上進行具體保障的系統性規劃以及工具集、做業集,治理收益是治理效果的具體量化、數據展示;服務提供和服務優化也是相輔相成的,前者是基礎、後者是用於政務服務的自我改進、提高;政務研判是對政務活動的研究、分析和斷定,核心目標是政務預測,即服務於對政務活動的將來預測、更好支撐將來的政務活動。從技術落地上來說,政務大數據的服務層是須要可視化技術、機器智能技術進行支撐的,前者用於展示展現和基礎互動,後者用於基於AI技術的虛擬「專家」智庫/團隊。其中,可視化技術將來必然是要和VR(Virtual Reality)、AR(Augmented Reality)、MR(Mixed Reality)、HR(Holographic Reality)、ER(Expander Reality)等XR技術相融合,來提升人與數據的互動。
關於政務大數據在服務層的8大業務主題域(政務大數據的本質就是政務,因此也是政務的8大業務主題域),計劃在漫談政務大數據系統文章完稿後,再分別作專題討論,因此本文就再也不進一步深刻闡述了。
簡言之,政務大數據的物理模型是服務於其概念模型,依據其邏輯模型進行政務大數據的實際實施、落地的。政務大數據的範圍很是普遍,本文僅對總體脈絡、通用業務、經常使用技術進行了說明。鑑於做者本人的學識、經驗所限,相關內容不免有偏頗甚至錯誤之處,很是歡迎感興趣的同仁一塊兒研討。同時,也會持續在該領域進行研究,並將心得、體會及時與你們分享。