一張圖,帶你讀懂 IBM 雲上真實洞察數據那些事

在傳統的交易數據庫系統中,伴隨着客戶的交易行爲發生,在業務系統中產生了相應的交易數據,並保存在關係型數據庫系統,從而造成了業務的交易記錄,各種業務應用系統都是圍繞着關係型數據庫打交道。數據庫

cognos

當今,你們都已看到的現實情況是:安全

隨着愈來愈多面向移動(mobile-oriented)的應用被大量企業/機構所使用,不少交易數據以 JSON 文檔形式產生,並保存在 NoSQL 數據庫系統中。服務器

不少企業/機構創建了數據中心,並以數據倉庫爲主要技術去進行數據分析。數據從交易系統數據庫抽取出來,通過轉換處理,加載到數據倉庫,才能讓數據得以進行分析,這個就是衆所周知的 ETL 處理流程。然而,這種分析是隻能適合對「指定」業務問題進行分析和回答,其表現形式是讓用戶去查詢信息,和用預先設計和創建好的模型來回答在指定範圍內的業務問題,以及產生報表。最大的限制和不便就是要「指定」,若是要回答新的業務問題,將沒法知足使用這些數據和信息人員的需求。架構

 

在最近 5年裏,隨着 Hadoop 平臺系統和 DataLake 技術普及應用,出現了不少面向 Hadoop 開源廠商。他們把大量數據,各類不一樣種類的數據存放在 Hadoop中,並進行 ETL 處理,將其處理結果保存在 Hadoop。利用開源技術軟件和廉價硬件,「充分」地去克服傳統數據倉庫技術所存在的限制,以良好擴充性,有條件地讓存放的數據歷史能夠更長,目標只有一個,就是但願能回答更多的「新問題」。工具

能回答那麼多「新問題」的分析系統必須是要面向企業級和跨部門,需具有較高級別的安全性和信息管治能力。偏偏 Hadoop 平臺系統在這兩方面都較弱;其次是,缺少良好詢問與回答問題的交互方式;再加上,Hadoop 很難與市場上大部分的分析工具軟件配合使用,須要較複雜的開發技能,全部這些,都很大地制約了用戶能在 Hadoop 平臺系統上執行分析任務的空間。oop

可是,若是目前IT技術還停留在傳統關係型數據和 SQL 技術,是難以解決數據分析已碰到問題。例如,物聯網(IoT)設備產生的大量源數據都須要用新的方法去分析這些數據,在雲上產生的數據也愈來愈多,非結構化數據隱藏着巨大的商業價值。大數據

爲了面對這些挑戰和走出困境,IBM 公司給你提供一條靈活和強大分析能力的策略,並提供解決方案。它就是基於 IBM Bluemix 平臺的 DataWorks 雲技術和服務,超越了批處理方式並以流數據處理技術,從衆多的數據區域中把所須要的數據抽過來,附加上有「內涵」的信息內容,加工成「內部數據」來幫助用戶找到所須要的答案。咱們用下面的例子來講明下,它就是經過 IBM’s Bluemix 平臺對天氣數據進行處理和分析。設計

cognos

一、數據採集:IBM DataWorks 能採集各類數據,支持範圍普遍,手段有:ETL 批處理或是流式數據(streaming);一個實時流式數據分析引擎,和一個基於IoT-based 數據模式(Weather Company 提供標準)的採集引擎,具備高速和採集很大數據量的能力。對象

二、數據存放:一旦數據被採集進來後,IBM DataWorks 提供多種存放方式。對數據庫而言,包括各類 NoSQL 數據存放格式(document, key-value, graph, columnar)到關係型(SQL-based)存放格式。 也支持對象存儲,例如 Swift on Bluemix, Amazon’s S3 service 雲端存儲。教程

三、執行分析:IBM DataWorks 提供分析工具爲不一樣級別的用戶對每一類型數據進行分析,例如:針對業務分析人員提供了報表和儀表盤;應用開發平臺提供給程序猿;數據管道、模型和信息統計工具提供給數據科學家使用等。

四、推廣應用:一旦用戶開發和使用分析工具軟件,還能滿意地找到了所關心問題的答案,

IBM DataWorks 提供了較簡單的部署和推廣應用方式。IBM Bluemix 平臺爲開發人員在整個應用開發階段中提供支持,包括生命週期管理、與 Web 應用服務器和 Github 功能集成等; Cognos 和 Watson Analytics 支持企業級的報表系統部署。另外,DataWorks 還提供了包括信息治理模型和部署架構。 IBM DataWorks 秉承以云爲第一,用戶本地中心第二的宗旨,爲用戶提供服務與支持,這種強大的混合雲模式給用戶在雲端上執行分析任務提供了廣闊天地。IBM DataWorks 不但讓用戶以自助方式去完成分析任務,還提供了數據治理能力,體如今:

1.提供不一樣安全級別的用戶權限控制,在符合法規條件下保護敏感數據;

2. 創建數據血緣關係(Data lineage)信息,讓你更清楚數據跨越千山萬水,從開始處理到最終分析的處理流程;

3. 業務術語/指標定義,創建業務術語/指標與技術描述定義的映射關係,填補了Hadoop data lakes 層面上元數據治理功能的缺失。

IBM DataWorks 採用 Apache SparkS 做爲底層處理引擎技術,它提供了快速、靈活和可擴展的數據處理能力,IBM 對開源技術支持和突出貢獻,讓整個業界都看到了 IBM 正開創了一個「新 IBM」時代。

更多大數據與分析相關行業資訊、解決方案、案例、教程等請點擊查看>>>

相關文章
相關標籤/搜索