隨着大數據技術的發展,數據量急劇增加,數據的分析挖掘工做也變得愈來愈重要。在這背後,數據倉庫的建設尤其重要,經過數倉,能夠爲數據分析人員提供全面的數據和計算能力。數據庫
數據倉庫包括原子級別的數據和輕度彙總的數據,是面向主題的、集成的、不可更新的(穩定性)、隨時間不斷變化(不一樣時間)的數據集合,用以支持經營管理中的決策制定過程。可是數據倉庫在高併發、快速響應的場景下具備很大的侷限性,沒法知足海量投資者數據查詢服務需求。安全
數據集市,也叫數據市場,是企業級數據倉庫的一個子集,是爲知足特定的部門或者用戶的需求,只面向某個特定的主題,按照多維的方式進行存儲,包括定義維度、須要計算的指標、維度的層次等,生成面向決策分析需求的數據立方體,提高數據查詢的效率。服務器
在社區不久前的線上交流活動中,圍繞着數據集市的需求、架構、方案等方面進行了問題的討論,多位專家和會員分享了觀點,對於你們瞭解和應用數據集市很是具備參考價值。架構
A1-1:併發
數據集市(Data Mart) ,也叫數據市場,是企業級數據倉庫的一個子集,是爲知足特定的部門或者用戶的需求,只面向某個特定的主題,數據集市存儲爲特定用戶預先計算好的數據,從而知足用戶對性能的需求。數據集市能夠在必定程度上緩解訪問數據倉庫的瓶頸。oracle
數倉解決海量數據統計分析,低用戶併發,大量計算。運維
數據集市低延時和高併發查詢的狀況下具有足夠的支撐能力,能夠7×24對外提供數據服務,且不影響原有數據倉庫統計分析應用的正常運行。大量生產數據的預處理在數倉進行,數據集市接收數倉預處理後的數據。分佈式
數據集市是對數倉的補充,靈活、快速響應業務,支持用戶部門自行定製數據進行統計分析,支持高併發、性價比較高。高併發
A1-2:性能
當用戶對大量數據的實時性要求很是迫切,而數據倉庫沒法知足時,就須要有針對性的對這些數據進行處理,提高存儲和計算的效率,這就須要創建數據集市,經過對數據的預處理,提高數據查詢處理效率。
Q2:企業建設數據集市的動力來自哪裏? 建設數據集市對金融行業客戶有何現實意義?
A2:
數據集市是數據倉庫的一個重要補充,知足客戶對數據的即時性要求;傳統數倉每每比較重存儲,且爲了保持數據完整性,而嚴格按照範式要求保存數據,從而致使計算量很大,時效性較低。創建數據集市,有助於進一步發揮數據價值,因其面向主題,能夠對數據作各類處理,從而在設計上提高數據存儲和查詢的效率。
Q3:目前金融行業中,規劃或者已經建設了數據集市項目的企業多嗎?數據集市在金融行業中發展的態勢如何?
A3-1:
數據集市適合行業內擁有海量數據的公司,需對特定領域服務,經過互聯網,對公衆、監管機構提供數據服務,好處是快速靈活、下降原有數據倉庫成本。
A3-2:
金融行業積累了很是多的數據,數據質量也很高,隨着金融業與技術的緊密結合,面向某一領域的數據需求變得愈來愈強烈,好比行情數據,不少應用都須要,這時若是造成行情的數據集市,提供數據服務,不只避免重複建設,並且有利於數據的統一管理。
Q4:數據集市項目的直接用戶和間接用戶是哪些方面?數據集市會爲用戶帶來哪些好處?
A4-1:
直接用戶是各業務部門、各業務系統,數倉不直接爲各業務系統直接提供數據服務,經過數據集市提供;間接用戶是各業務系統的用戶,如經過互聯網辦理業務的投資者用戶。直接用戶是能夠定製化數據服務,方便、快捷,間接用戶是快速響應、更好用戶體驗、高性能和可用性。
A4-2:
直接用戶是業務數據分析人員、業務系統負責人員,對數據有強烈的需求和敏銳的嗅覺,可以將數據價值抽象出來;間接用戶就是一線業務人員,能夠直接獲取該數據價值,對用戶及時反饋。數據集市提高了數據交互的時間,使數據的使用變得流暢。
A1-1:
不會的,二者在概念上並不徹底平級,就像工廠和門店的關係同樣,二者應該是相輔相成,充分發揮數據的價值的。
Q2:數據集市、數據倉庫在方法論上有什麼差別,爲何選擇不一樣的技術和平臺?相比而言,數據集市和數據倉庫各有什麼優勢和缺點?
A2-1:
本質上沒有區別,如豪華汽車和中端汽車,目的是解決不一樣場景的問題。
數據集市(Data Mart) ,也叫數據市場,是企業級數據倉庫的一個子集,是爲知足特定的部門或者用戶的需求,只面向某個特定的主題,數據集市存儲爲特定用戶預先計算好的數據,從而知足用戶對性能的需求。數據集市能夠在必定程度上緩解訪問數據倉庫的瓶頸。
數倉解決海量數據統計分析,低用戶併發,大量計算。
數據集市低延時和高併發查詢的狀況下具有足夠的支撐能力,能夠7×24對外提供數據服務,且不影響原有數據倉庫統計分析應用的正常運行。
A2-2:
數據倉庫用於存放着很是多的各種數據,而數據集市是把某些方面的數據包裝對外服務的。因此數倉的數據全,粒度細,沒有很好的加工,而數據集市可能會改變原有數據,因此粒度是較粗的。數據倉庫的優勢是數據全面,可是分析時效性慢,而數據集市更關注於時效性和應用場景,不關心數據自己結構。
A1-1:
可能主要在三方面:
一、技術管理:專門的開發運維團隊,和數倉(大倉)間的職責分工,集市技術人員與業務人員間的職責分工明確
二、技術架構:集市數據架構設計,從數倉(大倉)數據加載,數據集市運維監控,集市高性能、高可用機制,業務人員靈活定製數據服務與集市平常數據服務、集市數據加載間的資源分配,新技術掌控力度等
三、信息安全:開發、運維分離,生產操做各項安全審計,數據庫自己權限最小、數據隔離機制等
A1-2:
類比大數據平臺,數據ETL是個很是重要且比較有難度的技術點,每每會有人提出數據導的不正常或丟失、數據未正常到達等狀況,這個沒有較好的解決方法,只能作好監控,儘可能保證各個環節正常流轉。在運維方面,集羣每每面臨着查詢和存儲壓力,如何在遇到問題時有效解決或者預警,這也是很是有挑戰的,能夠經過對平臺底層的瞭解,不斷對集羣進行優化和監控。在開發方面,須要分析人員對業務需求很是瞭解,才能設計出合理的數據模型,提高數據服務的效率。
Q2:從數據的採集、數據的存儲、數據的處理、數據的訪問/供應等幾個方面,那種方案合適,以及如何進行設計?
A2-1:
通常分爲數據採集、數據傳輸、數據處理、數據存儲、平臺服務等方面,具體每一個部分技術方案須要看企業的需求,關鍵點包括:數據治理、數據加載、數據存儲等方面。
A2-2:
總體架構包括採集、存儲、處理和訪問等層次,就像創建大數據平臺同樣,這都是須要重點考慮的技術點,至於哪一種方案合適,首先仍是要了解各個層次對應的技術組件和成熟的解決方案,對各個技術點重點測試,掌握優缺點後才能合理組合各個組件。每一個公司都會找到適合本身的總體方案,畢竟,並無一種方案能徹底適應各個公司的數據狀況。
Q3:數據集市完成的目標和使命是什麼?從這個意義上講,應該爲數據集市的成功標準設計什麼樣的KPI?
A3-1:
主要分爲業務需求和技術需求兩部分。業務需求主要是技術服務部門或系統的業務場景,建模即業務建模,須要對業務關係、實體充分了解,目前各廠商針對各個行業,如證券都有成熟業務模型。技術需求主要包括可維護性、性能、安全、監控運維等。
A3-2:
需求模型的肯定須要詳細瞭解業務需求,同時具有數據建模思惟,將需求轉化爲數學模型,從而經過數據集市計算引擎實現。數據集市是否有效的衡量標準有擴展性、性能、穩定性、安全、易用性等方面。
Q4:金融行業在數據集市項目中,是否涉及到主機、存儲、數據庫、系統管理等的選型?如何選型?
A4-1:
在數據集市項目中,重點關注數據集市的系統技術方案,好的數據存儲和計算引擎是數據集市項目成功與否的關鍵,存儲格式、計算性能、擴展性、穩定性、安全性、數據ETL等方面都是要考察的技術點,就像你們選擇oracle作OLTP系統同樣,選擇一個好的底層引擎,纔有可能將數據集市作大作強。
A4-2:
通常數據集市和企業數據倉庫或大數據平臺一塊兒進行選型,主要考慮點包括分佈式系統,性價比低,國產廠商,金融行業成功案例,知足各項需求指標等。
Q5:金融行業在規劃數據集市項目時,有哪些技術路線可選?如何選?還有,有哪些數據集市的供應商可選?如何考察?
A5:
最主要在於分佈式數據庫選型,如傳統關係型如oracle、db2,mpp架構GP、TD、Gbase,新興分佈式架構,如阿里雲、華爲、星環大數據平臺等。
Q6:金融行業在實施數據集市項目時,成本組成有哪些?
A6-1:
主要四方面,軟件平臺廠商支持、團隊建設、應用系統開發、硬件維護。
A6-2:
主要包括硬件服務器、軟件平臺、平臺管理人員、數據分析團隊(建模、數據服務化、系統開發)。
Q7:數據集市中有大量數據時,數據之間的關係應該怎麼管理呢?場景問題:面對大量的數據集市中的數據,有可能針對同一個屬性從不一樣的表裏獲得是存在不一致的狀況的。這種狀況怎麼處理?
A7-1:
這須要兩方面:
一、充分理解業務場景,進行元數據管理,定義各表中各字段的業務含義
二、增強數據治理,在數據ETL時對業務系統數據進行按照元數據規則進行預處理。
A7-2:
這個也是數據分析時遇到的共性問題,數據倉庫一樣由此問題,一般的作法就是創建元數據標準,在數據ETL的時候進行標準化處理,避免數據不一致的狀況。
Q8:實施數據集市的項目時,對於項目參與人員,應該如何規劃培訓學習進行技能儲備?
A8-1:
數據集市的項目跟創建大數據平臺同樣,是個大工程,都面臨着數據ETL、存儲、計算、數據管理等技術方面的挑戰,而比大數據平臺更復雜的是數據集市是個面向業務人員的OLAP型系統,如何知足業務各類各樣的建模需求也是創建數據集市面臨的一個大問題。因此,項目人員既要懂底層技術,又要懂上層業務,只有這樣才能發揮數據集市的優點。在技術方面,能夠類比大數據平臺,能夠儲備數據ETL、分佈式存儲、分佈式計算、管理和運維的經驗;業務上就要深刻了解業務需求,轉化爲數據模型。
A1-1:
建設方爲技術部門的數據倉庫組或技術平臺組,所服務業務部門,技術部門各業務系統組,採購、財務部門,按照各部門分工支持配合。
A1-2:
業務部門、技術部門(主要爲數據分析團隊、數據倉庫團隊)應看成爲核心部門對此支持,主要爲實施、分析和使用;其他部門應看成爲輔助。
Q2:好比在技術上、組織受權上、人員力量上、流程上、管理上、資金投入上等各個方面,會有哪些風險,如何規避?
A2-1:
一、面臨着管理需求同實際狀況不能嚴格匹配。
二、項目推進過程須要各業務部門有效的統一組織和規劃安排。
三、IT人員對技術的掌握和對項目控制很關鍵。
A2-2:
風險無處不在,應注意識別並預防,主要如下三方面
(1)管理制度、組織架構
專門的開發運維團隊,和數倉(大倉)間的職責分工,集市技術人員與業務人員間的職責分工
(2)技術
集市數據架構設計,從數倉(大倉)數據加載,數據集市運維監控,集市高性能、高可用機制,業務人員靈活定製數據服務與集市平常數據服務、集市數據加載間的資源分配,新技術掌控力度
(3)信息安全
開發、運維分離,生產操做各項安全審計,數據庫自己權限最小、數據隔離機制
A2-3:
不光是在數據集市項目上,幾乎全部大型項目上,都存在技術、管理、組織、資金等方面的風險,如何規避這些風險,主要仍是要從政策上支持、技術上把關、實施上嚴謹、分析人員業務精通、與業務人員時刻溝通避免方向錯誤等方面入手,嚴防風險的發生。
Q3:數據集市項目的直接用戶和間接用戶是哪些方面?數據集市會爲用戶帶來哪些好處?
A3-1:
直接用戶是各業務部門、各業務系統,數倉不直接爲各業務系統直接提供數據服務,經過數據集市提供;間接用戶是各業務系統的用戶,如經過互聯網辦理業務的投資者用戶。直接用戶是能夠定製化數據服務,方便、快捷,間接用戶是快速響應、更好用戶體驗、高性能和可用性。
A3-2:
直接用戶是業務數據分析人員、業務系統負責人員,對數據有強烈的需求和敏銳的嗅覺,可以將數據價值抽象出來;間接用戶就是一線業務人員,能夠直接獲取該數據價值,對用戶及時反饋。數據集市提高了數據交互的時間,使數據的使用變得流暢。
Q1:如何根據數據集市項目設定的建設目標和標準,進行數據集市功能的測試和驗收?
A1: 數據集市的建模是終端用戶驅動的,終端用戶必須參與數據集市的建模過程,由於他們顯然是要使用該數據集市的人。因此建設目標要緊貼業務需求,解決用戶最關注的的數據獲取問題,數據集市的創建就是要創建一套面向業務的數據服務;建設標準通常根據本身公司的特色定製,沒有行業惟一的標準。測試和驗收工做跟通常項目差很少,只要可以知足業務需求,用戶能夠很方便且無差錯地經過數據集市獲取數據,架構設計擴展性高,性能知足要求便可。