數據分析繁華的背後，都隱藏着怎樣的哀傷

時間 2019-11-13

標籤數據分析繁華背後隱藏怎樣哀傷简体版

原文原文鏈接

大數據技術的核心是什麼？前端

面對這個問題，相信你們都會回答是大數據分析系統。程序員

大數據分析系統從海量類型多樣、增加快速、內容真實的數據背後挖掘、分析，從中找出能夠幫助決策的價值信息，未知的單方/雙方/多方關係，並結合用戶需求有針對性地進行調整和優化。算法

今天，大數據分析系統已然紮根於各行各業，對信息安全、社會經濟生活、民生等起着十分重要的做用。可是，在它繁榮興盛的背後，又存在着哪些無奈呢？咱們一塊兒來梳理一下。數據庫

1、系統組件太多，孤島狀況突出，運維和安全成本過高編程

目前，不少大數據分析系統的架構是這樣的。安全

第一層，數據採集與整合層，由雙向/單向數據同步系統、分佈式消息總線Kafka、數據集成系統ETL組成。網絡

第二層，大數據存儲與分析層，由分佈式文件系統、分佈式數據庫系統做爲存儲組件，開源大數據計算框架Spark、Storm等做爲分析工具。架構

第三層，服務與接口層，部署SOA架構的服務總線系統以及大數據工具的集合。框架

第四，應用層，由各種自主研發的UI應用系統構成。運維

這種系統架構就像一個拼接的魔方，它既龐大又複雜。

IT資源種類及其數量不斷增多，網絡形態更加複雜。一方面給運維工做帶來巨大的壓力和挑戰，另外一方面在實現數據資源共享和挖掘潛在價值方面，也暴露出包含大量敏感和重要信息的數據資源被泄露和非法利用的風險。

2、沒法深度融合人工智能AI與商業智能BI的優點

目前，市面上優秀的大數據分析系統比較多，能夠將其劃分爲兩類：

第一類，以MapReduce和Spark計算框架等爲表明的高性能分析系統，以各類高性能處理算法、智能搜索與挖掘算法等爲主要研究內容，也是大數據分析的研究主流。

第二類，以大數據可視化分析（isual analytics of big data）爲主要表明（好比，Tableau），主要以人機交互爲主，強調以人做爲分析主體，結合各種精美的可視化圖表進行分析。

可見，第一類系統側重於AI，第二類系統側重於BI，他們各有特點，但並未深刻的相互融合。

雖然，目前一些商業智能系統已開始整合AI功能，但並未深刻融合AI技術，所以難以全面地支持人工智能。同時，大數據自己的新特色和多元化的用戶分析需求，也對AI與BI提出了更爲迫切的需求與更加嚴峻的挑戰。

3、非輕量級交互式編程語言，學習成本高且不利於交互分析

數據分析是一項須要具有較高的知識與技能的工做，除了要熟悉行業知識，掌握數學和統計學的方法外，還須要掌握一門分析編程語言才能駕馭大規模的海量數據！

經常使用的可編程分析語言有R語言、Spark、MATLAB等。這此語言由變量、賦值語句、表達式、控制語句等構成指令序列，有比較複雜的保存和編譯過程。

第一，沒法逐句執行，不能執行一條輸出一個結果。很是不利於分析師定位錯誤，進行數據探索。

第二，不能靈活組合多種原語，沒法將複雜的數據分析場景簡單化，更適合於有編程經驗的程序員，學習和入門門檻高。

4、可視化大屏只能看，不能交互

當數據驅動決策的大潮來襲後，對海量數據進行高效分析後，可以進行多維度的高清展現就成爲每個決策者心中的期待！爲了這份期待，不少數據公司提供了創造性的呈現方式及內容（美侖美奐的高清展現大屏、劃分清晰而完整的主題）。即使如此，在一些方面仍不能知足用戶的需求。

第一，數據大屏的信息量太大，沒法讓用戶迅速聚焦重點。

第二，沒法快速瞭解多個屏幕在總體上的佈局狀況，當須要尋找某一具體信息時，不能經過縮略佈局圖快速返回。

第三，目前大屏信息量較大，雖有劃分主題，但在宏觀上仍是很差區分。快速定位的問題仍有待解決。

第四，不能有效地下鑽連接內容。

第五，同屏及多屏互動功能還處於空白階段。

拋開現象看本質，可視化是表象，分析內核纔是靈魂。若是表現形式不能很好地反映內在，即便作的再精美也是難以發揮價值的。

5、定製化需求太多，實施成本過高，要賺錢很難

首先，大數據開源技術的蓬勃興盛造就了大數據行業的低門檻，愈來愈多的IT公司正在或打算從事大數據業務，形成了激烈的行業競爭。可是開源技術雖然成熟，應用普遍，但若是要做爲商用，承擔大任，就會存在如何根據用戶基礎架構和數據特色，進行開源組件優化和二次開發的問題。而開源技術存在涉及面廣、版本更新快的問題，對技術開發能力的要求是比較高的，沒法普適於通常的數據分析師。

其次，定製化需求比較多。大數據時代，如何用數據充分挖倔價值是王道。每一個客戶可能都有着不同的分析需求，不能用一款產品定製出多元化的項目是痛中之痛。

再次，咱們知道作一個大數據分析項目的大體流程是這樣的：

需求分析 → 部署Hadoop/Spark等平臺 → 數據處理ETL → 數據探索，構建模型 → 開發可視化界面 → 交互測試。

能夠看出，過程長而複雜，這就對開發人員提出了很高的要求。要求基礎平臺搭建工程師，擁有HADOOP、SPARK、ELK、Sqoop、UTL、關係型數據庫等技能；要求後臺開發工程師，擁有J2EE/XML/Web Servie、Map/Recude、Spark Driver、Spark streaming等技能；要求分析和數據挖掘工程師，擁有Hive/Impala/Spark SQL、spark MLLib/graphx、Matlab、ES QueryDSL/ESQL等技能；要求前端開發工程師，擁有HTML5\CSS三、JavaScript、JQuery\Bootstrap、Echars\D3.js等技能。一個項目須要這麼多的人力成本，且對技能的要求如此之高，讓項目管理負重而行。

以上問題共同形成了用戶的哀傷，如何解決，才能截然不「痛」呢？

下篇，OpenFEA將給出解決方案，敬請期待！

另外，以上總結概括，若是您以爲還未擊中用戶痛點，歡迎在留言區補充，咱們繼續討論。若是您覺這些問題有點以偏蓋全，也請留言，咱們共同探討，一塊兒提升大數據分析系統的實用價值，爲民族大數據分析產品的發展貢獻力量。