若是僅僅是海量的結構性數據,那麼解決的辦法就比較的單一,用戶經過購買更多的存儲設備,提升存儲設備的效率等解決此類問題。然而,當人們發現數據庫中的數據能夠分爲三種類型:結構性數據、非結構性數據以及半結構性數據等複雜狀況時,問題彷佛就沒有那麼簡單了。
大數據洶涌來襲
當類型複雜的數據洶涌襲來,那麼對於用戶IT系統的衝擊又會是另一種處理方式。不少業內專家和第三方調查機構經過一些市場調查數據發現,大數據時代即將到來。有調查發現,這些複雜數據中有85%的數據屬於普遍存在於社交網絡、物聯網、電子商務等之中的非結構化數據。這些非結構化數據的產生每每伴隨着社交網絡、移動計算和傳感器等新的渠道和技術的不斷涌現和應用。
現在大數據的概念也存在着不少的炒做和大量的不肯定性。爲此,編者詳細向一些業內專家詳細瞭解有關方面的問題,請他們談一談,大數據是什麼和不是什麼,以及如何應對大數據等問題,將系列文章的形式與網友見面。
有人將多TB數據集也稱做」大數據」。據市場研究公司IDC統計,數據使用預計將增加44倍,全球數據使用量將達到大約35.2ZB(1ZB
= 10億TB)。然而,單個數據集的文件尺寸也將增長,致使對更大處理能力的需求以便分析和理解這些數據集。
EMC曾經表示,它的1000多個客戶在其陣列中使用1PB(千兆兆)以上的數據數據,這個數字到2020年將增加到10萬。一些客戶在一兩年內還將開始使用數千倍多的數據,1EB(1艾字節
= 10億GB)或者更多的數據。
對大企業而言,大數據的興起部分是由於計算能力可用更低的成本得到,且各種系統現在已可以執行多任務處理。其次,內存的成本也在直線降低,企業能夠在內存中處理比以往更多的數據,另外是把計算機聚合成服務器集羣愈來愈簡單。IDC認爲,這三大因素的結合便催生了大數據。同時,IDC還表示,某項技術要想成爲大數據技術,首先必須是成本可承受的,其次是必須知足IBM所描述的三個」V」判據中的兩個:多樣性(variety)、體量(volume)和速度(velocity)。
大數據與海量數據的區別
多樣性是指,數據應包含結構化的和非結構化的數據。
體量是指聚合在一塊兒供分析的數據量必須是很是龐大的。
而速度則是指數據處理的速度必須很快。
大數據」並不是老是說有數百個TB纔算得上。根據實際使用狀況,有時候數百個GB的數據也可稱爲大數據,這主要要看它的第三個維度,也就是速度或者時間維度。
Garter表示,全球信息量正在以59%以上的年增加率增加,而量是在管理數據、業務方面的顯著挑戰,IT領袖必須側重在信息量、種類和速度上。
量:企業系統內部的數據量的增長是由交易量、其它傳統數據類型和新的數據類型引起的。過多的量是一個存儲的問題,但過多的數據也是一個大量分析的問題。
種類:IT領袖在將大量的交易信息轉化爲決策上一直存在困擾 – 如今有更多類型的信息須要分析 –
主要來自社交媒體和移動(情景感知)。種類包括表格數據(數據庫)、分層數據、文件、電子郵件、計量數據、視頻、靜態圖像、音頻、股票行情數據、金融交易和其它更多種類。
速度:這涉及到數據流、結構化記錄的建立,以及訪問和交付的可用性。速度意味着正在被生成的數據有多快和數據必須被多快地處理以知足需求。
雖然大數據是一個重大問題,Gartner分析師表示,真正的問題是讓大數據更有意義,在大數據裏面尋找模式幫助組織機構作出更好的商業決策。
諸子百家談如何定義」大數據」
儘管」Big Data」能夠翻譯成大數據或者海量數據,但大數據和海量數據是有區別的。
定義一:大數據 = 海量數據 + 複雜類型的數據
Informatica中國區首席產品顧問但彬認爲:」大數據」包含了」海量數據」的含義,並且在內容上超越了海量數據,簡而言之,」大數據」是」海量數據」+複雜類型的數據。
但彬進一步指出:大數據包括交易和交互數據集在內的全部數據集,其規模或複雜程度超出了經常使用技術按照合理的成本和時限捕捉、管理及處理這些數據集的能力。
大數據是由三項主要技術趨勢匯聚組成:數據庫
海量交易數據:在從 ERP應用程序到數據倉庫應用程序的在線交易處理(OLTP)與分析系統中,傳統的關係數據以及非結構化和半結構化信息仍在繼續增加。隨着企業將更多的數據和業務流程移向公共和私有云,這一局面變得更加複雜。 海量交互數據:這一新生力量由源於 Facebook、Twitter、LinkedIn 及其它來源的社交媒體數據構成。它包括了呼叫詳細記錄(CDR)、設備和傳感器信息、GPS和地理定位映射數據、經過管理文件傳輸(Manage File Transfer)協議傳送的海量圖像文件、Web 文本和點擊流數據、科學信息、電子郵件等等。 海量數據處理:大數據的涌現已經催生出了設計用於數據密集型處理的架構,例如具備開放源碼、在商品硬件羣中運行的 Apache Hadoop。對於企業來講,難題在於以具有成本效益的方式快速可靠地從 Hadoop 中存取數據。
定義二:大數據包括A、B、C三個要素
如何理解大數據?NetApp
大中華區總經理陳文認爲,大數據意味着經過更快獲取信息來使作事情的方式變得不同凡響,並所以實現突破。大數據被定義爲大量數據(一般是非結構化的),它要求咱們從新思考如何存儲、管理和恢復數據。那麼,多大才算大呢?考慮這個問題的一種方式就是,它是如此之大,以致於咱們今天所使用的任何工具都沒法處理它,所以,如何消化數據並把它轉化成有價值的洞見和信息,這其中的關鍵就是轉變。
基於從客戶那裏瞭解的工做負載要求, NetApp所理解的大數據包括A、B、C三個要素:分析(Analytic),帶寬(Bandwidth)和內容(Content)。
大分析(Big Analytics),幫助得到洞見 –
指的是對巨大數據集進行實時分析的要求,它能帶來新的業務模式,更好的客戶服務,並實現更好的結果。
高帶寬(Big Bandwidth),幫助走得更快 –
指的是處理極端高速的關鍵數據的要求。它支持快速有效地消化和處理大型數據集。
大內容(Big Content),不丟失任何信息-
指的是對於安全性要求極高的高可擴展的數據存儲,並可以輕鬆實現恢復。它支持可管理的信息內容存儲庫、而不僅是存放太久的數據,而且可以跨越不一樣的大陸板塊。
大數據是一股突破性的經濟和技術力量,它爲 IT
支持引入了新的基礎架構。大數據解決方案消除了傳統的計算和存儲的侷限。藉助於不斷增加的私密和公開數據,一種劃時代的新商業模式正在興起,它有望爲大數據客戶帶來新的實質性的收入增加點以及富於競爭力的優點。安全