什麼叫大數據 大數據的概念

 

一、大數據定義

 對於「大數據」(Big data)研究機構Gartner給出了定義,「大數據」是須要新處理模式才能具備更強的決策力、洞察發現力和流程優化能力的海量、高增加率和多樣化的信息資產。

 

大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。換言之,若是把大數據比做一種產業,那麼這種產業實現盈利的關鍵,在於提升對數據的「加工能力」,經過「加工」實現數據的「增值」。若是你想了解大數據的學習路線,想學習大數據知識以及須要免費的學習資料能夠加羣:784789432.歡迎你的加入。天天下午三點開直播分享基礎知識,晚上20:00都會開直播給你們分享大數據項目實戰。html

從技術上看,大數據與雲計算的關係就像一枚硬幣的正反面同樣密不可分。大數據必然沒法用單臺的計算機進行處理,必須採用分佈式架構。它的特點在於對海量數據進行分佈式數據挖掘,但它必須依託雲計算分佈式處理分佈式數據庫雲存儲虛擬化技術前端

隨着雲時代的來臨,大數據(Big data)也吸引了愈來愈多的關注。《著雲臺》的分析師團隊認爲,大數據(Big data)一般用來形容一個公司創造的大量非結構化數據半結構化數據,這些數據在下載到關係型數據庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯繫到一塊兒,由於實時的大型數據集分析須要像MapReduce同樣的框架來向數10、數百或甚至數千的電腦分配工做。java

大數據須要特殊的技術,以有效地處理大量的容忍通過時間內的數據。適用於大數據的技術,包括大規模並行處理(MPP)數據庫、數據挖掘電網、分佈式文件系統、分佈式數據庫雲計算平臺、互聯網和可擴展的存儲系統。mysql

最小的基本單位是bit,按順序給出全部單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它們按照進率1024(2的十次方)來計算:redis

8bit= 1Byte算法

1KB= 1,024 Bytessql

1MB= 1,024 KB = 1,048,576 Bytesmongodb

1GB= 1,024 MB = 1,048,576 KB數據庫

1TB= 1,024 GB = 1,048,576 MB編程

1PB= 1,024 TB = 1,048,576 GB

1EB= 1,024 PB = 1,048,576 TB

1ZB= 1,024 EB = 1,048,576 PB

1YB= 1,024 ZB = 1,048,576 EB

1BB= 1,024 YB = 1,048,576 ZB

1NB= 1,024 BB = 1,048,576 YB

1 DB = 1,024 NB = 1,048,576 BB

2發展歷史

編輯

1887–1890年

赫爾曼·霍爾瑞斯美國統計學家赫爾曼·霍爾瑞斯爲了統計1890年的人口普查數據發明了一臺電動器來讀取卡片上的洞數,該設備讓美國用一年時間就完成了本來耗時8年的人口普查活動,由此在全球範圍內引起了數據處理的新紀元。

1935–1937年

美國總統富蘭克林·羅斯福利用社會保障法開展了美國政府最雄心勃勃的一項數據收集項目,IBM最終贏得競標,即須要整理美國的2600萬個員工和300萬個僱主的記錄。共和黨總統候選人阿爾夫蘭登scoffs嘲笑地說,「要整理如此繁多的職工檔案,還必須而調用大規模的現場調查人員去核實那些信息不完整的人員記錄。」

1943年

一家英國工廠爲了破譯二戰期間的納粹密碼,讓工程師開發了系列開創性的能進行大規模數據處理的機器,並使用了第一臺可編程的電子計算機進行運算。該計算機被命名爲「巨人」,爲了找出攔截信息中的潛在模式,它以每秒鐘5000字符的速度讀取紙卡——將本來須要耗費數週時間才能完成的工做量壓縮到了幾個小時。破譯德國部隊前方陣地的信息之後,幫助盟軍成功登錄了諾曼底。

1997年

美國宇航局研究員邁克爾·考克斯和大衛·埃爾斯沃斯首次使用「大數據」這一術語來描述20世紀90年代的挑戰:超級計算機生成大量的信息——在考克斯和埃爾斯沃斯按案例中,模擬飛機周圍的氣流——是不能被處理和可視化的。數據集一般之大,超出了主存儲器本地磁盤,甚至遠程磁盤的承載能力。」他們稱之爲「大數據問題。」

2002年

在9/11襲擊後,美國政府爲阻止恐怖主義已經涉足大規模數據挖掘。前國家安全顧問約翰·波因德克斯特領導國防部整合現有政府的數據集,組建一個用於篩選通訊、犯罪、教育、金融、醫療和旅行等記錄來識別可疑人的大數據庫。一年後國會因擔心公民自由權而中止了這一項目。

2004年

9/11委員會呼籲反恐機構應統一組建「一個基於網絡的信息共享系統」,以便能快處理目不暇接的數據。到2010年,美國國家安全局的30000名員工將攔截和存儲17億年電子郵件、電話和其它通信日報。與此同時,零售商積累關於客戶購物和我的習慣的大量數據,沃爾瑪自吹已擁有一個容量爲460字節的緩存器——比當時互聯網上的數據量還要多一倍。

2007–2008年

隨着社交網絡的激增,技術博客和專業人士爲「大數據」 概念注入新的生機。「當前世界範圍內已有的一些其餘工具將被大量數據和應用算法所取代」。《連線》的克里斯·安德森認爲當時處於一個「理論終結時代」。一些政府機構和美國的頂尖計算機科學家聲稱,「應該深刻參與大數據計算的開發和部署工做,由於它將直接有利於許多任務的實現。」

2009年1月

印度政府創建印度惟一的身份識別管理局,對12億人的指紋、照片和虹膜進行掃描,併爲每人分配12位的數字ID號碼,將數據聚集到世界最大的生物識別數據庫中。官員們說它將會起到提升政府的服務效率和減小腐敗行爲的做用,但批評者擔憂政府會針對個別人進行剖面分析並與分享這些人的私密生活細節。

2009年5月

大數據或成反恐分析利器美國總統巴拉克·奧巴馬政府推出data.gov網站做爲政府開放數據計劃的部分舉措。該網站的超過4.45萬量數據集被用於保證一些網站和智能手機應用程序來跟蹤從航班到產品召回再到特定區域內失業率的信息,這一行動激發了從肯尼亞到英國範圍內的政府們相繼推出相似舉措。

2009年7月

應對全球金融危機,聯合國祕書長潘基文承諾建立警報系統,抓住「實時數據帶給貧窮國家經濟危機的影響」 。聯合國全球脈衝項目已研究了對如何利用手機和社交網站的數據源來分析預測從螺旋價格到疾病爆發之類的問題。

2011年2月

掃描2億年的頁面信息,或4兆兆字節磁盤存儲,只需幾秒便可完成。IBM的沃森計算機系統在智力競賽節目《危險邊緣》中戰勝了兩名人類挑戰者。後來紐約時報配音這一刻爲一個「大數據計算的勝利。」

2012年3月

美國政府報告要求每一個聯邦機構都要有一個「大數據」的策略,做爲迴應,奧巴馬政府宣佈一項耗資2億美圓的大數據研究與發展項目。國家衛生研究院將一套人類基因組項目的數據集存放在亞馬遜的計算機雲內,同時國防部也承諾要開發出可「從經驗中進行學習」的「自主式」防護系統。中央情報局局長戴維·彼得雷烏斯將軍在發帖討論阿拉伯之春機構經過雲計算收集和分析全球社會媒體信息之事時,不由驚歎咱們已經被自卸卡車倒進了「‘數字塵土」中。

2012年7月

美國國務卿希拉里·克林頓宣佈了一個名爲「數據2X」的公私合營企業用來收集統計世界各地的婦女和女童在經濟、政治和社會地位方面的信息。「數據不僅是測量過程——它能給予咱們啓發,」她解釋說。「一旦人們開始對某個問題實施測量時,就更傾向於採起行動來解決它們,由於沒有人願意排到名單的最低端去。」讓大數據開始競賽吧。

3技術盤點

編輯

HadoopMapReduce

思惟模式轉變的催化劑是大量新技術的誕生,它們可以處理大數據分析所帶來的3個V的挑戰。紮根於開源社區,Hadoop已是目前大數據平臺中應用率最高的技術,特別是針對諸如文本、社交媒體訂閱以及視頻等非結構化數據。除分佈式文件系統以外,伴隨Hadoop一同出現的還有進行大數據集處理MapReduce架構。根據權威報告顯示,許多企業都開始使用或者評估Hadoop技術來做爲其大數據平臺的標準。

大數據NoSQL數據庫

咱們生活的時代,相對穩定的數據庫市場中還在出現一些新的技術,並且在將來幾年,它們會發揮做用。事實上,NoSQL數據庫在一個廣義上派系基礎上,其自己就包含了幾種技術。整體而言,他們關注關係型數據庫引擎的限制,如索引、流媒體和高訪問量的網站服務。在這些領域,相較關係型數據庫引擎,NoSQL的效率明顯更高。

內存分析

在Gartner公司評選的2012年十大戰略技術中,內存分析在我的消費電子設備以及其餘嵌入式設備中的應用將會獲得快速的發展。隨着愈來愈多的價格低廉的內存用到數據中心中,如何利用這一優點對軟件進行最大限度的優化成爲關鍵的問題。內存分析以其實時、高性能的特性,成爲大數據分析時代下的「新寵兒」。如何讓大數據轉化爲最佳的洞察力,也許內存分析就是答案。大數據背景下,用戶以及IT提供商應該將其視爲長遠發展的技術趨勢。

集成設備

隨着數據倉庫設備(Data Warehouse Appliance)的出現,商業智能以及大數據分析的潛能也被激發出來,許多企業將利用數據倉庫新技術的優點提高自身競爭力。集成設備將企業的數據倉庫硬件軟件整合在一塊兒,提高查詢性能、擴充存儲空間並得到更多的分析功能,並可以提供同傳統數據倉庫系統同樣的優點。在大數據時代,集成設備將成爲企業應對數據挑戰的一個重要利器。

4結構特色

編輯
 

結構

大數據就是互聯網發展到現今階段的一種表象或特徵而已,沒有必要神話它或對它保持敬畏之心,在以雲計算爲表明的技術創新大幕的陪襯下,這些本來很難收集和使用的數據開始容易被利用起來了,經過各行各業的不斷創新,大數據會逐步爲人類創造更多的價值。

其次,想要系統的認知大數據,必需要全面而細緻的分解它,我着手從三個層面來展開:

第一層面是理論,理論是認知的必經途徑,也是被普遍認同和傳播的基線。在這裏從大數據的特徵定義理解行業對大數據的總體描繪和定性;從對大數據價值的探討來深刻解析大數據的珍貴所在;洞悉大數據的發展趨勢;從大數據隱私這個特別而重要的視角審視人和數據之間的長久博弈。

第二層面是技術,技術是大數據價值體現的手段和前進的基石。在這裏分別從雲計算、分佈式處理技術、存儲技術和感知技術的發展來講明大數據從採集、處理、存儲到造成結果的整個過程。

第三層面是實踐,實踐是大數據的最終價值體現。在這裏分別從互聯網的大數據,政府的大數據,企業的大數據和我的的大數據四個方面來描繪大數據已經展示的美好景象及即將實現的藍圖。

特色

大數據大數據分析相比於傳統的數據倉庫應用,具備數據量大、查詢分析複雜等特色。《計算機學報》刊登的「架構大數據:挑戰、現狀與展望」一文列舉了大數據分析平臺須要具有的幾個重要特性,對當前的主流實現平臺——並行數據庫、MapReduce及基於二者的混合架構進行了分析概括,指出了各自的優點及不足,同時也對各個方向的研究現狀及做者在大數據分析方面的努力進行了介紹,對將來研究作了展望。

大數據的4個「V」,或者說特色有四個層面:第一,數據體量巨大。從TB級別,躍升到PB級別;第二,數據類型繁多。前文提到的網絡日誌、視頻、圖片、地理位置信息等等。第三,處理速度快,1秒定律,可從各類類型的數據中快速得到高價值的信息,這一點也是和傳統的數據挖掘技術有着本質的不一樣。第四,只要合理利用數據並對其進行正確、準確的分析,將會帶來很高的價值回報。業界將其概括爲4個「V」——Volume(數據體量大)、Variety(數據類型繁多)、Velocity(處理速度快)、Value(價值密度低)。

從某種程度上說,大數據是數據分析的前沿技術。簡言之,從各類各樣類型的數據中,快速得到有價值信息的能力,就是大數據技術。明白這一點相當重要,也正是這一點促使該技術具有走向衆多企業的潛力。

大數據最核心的價值就是在於對於海量數據進行存儲和分析。相比起現有的其餘技術而言,大數據的「廉價、迅速、優化」這三方面的綜合成本是最優的。

5處理工具

編輯

當前用於分析大數據的工具主要有開源與商用兩個生態圈

開源大數據生態圈:

一、Hadoop HDFS、HadoopMapReduce, HbaseHive 漸次誕生,早期Hadoop生態圈逐步造成。

二、. Hypertable是另類。它存在於Hadoop生態圈以外,但也曾經有一些用戶。

三、NoSQL,membase、MongoDB

商用大數據生態圈:

一、一體機數據庫/數據倉庫:IBM PureData(Netezza), OracleExadata, SAP Hana等等。

二、數據倉庫:TeradataAsterData, EMC GreenPlum, HPVertica 等等。

三、數據集市:QlikView、 Tableau 、 以及國內的Yonghong Data Mart 。

6處理流程

編輯
 

數據採集

定義:利用多種輕型數據庫來接收發自客戶端的數據,而且用戶能夠經過這些數據庫來進行簡單的查詢和處理工做。

特色和挑戰:併發係數高。

使用的產品:MySQLOracleHbaseRedis和 MongoDB等,而且這些產品的特色各不相同。

統計分析

大數據定義:將海量的來自前端的數據快速導入到一個集中的大型分佈式數據庫 或者分佈式存儲集羣,利用分佈式技術來對存儲於其內的集中的海量數據 進行普通的查詢和分類彙總等,以此知足大多數常見的分析需求。

特色和挑戰:導入數據量大,查詢涉及的數據量大,查詢請求多。

使用的產品:InfoBright,Hadoop(Pig和Hive),YunTable, SAP Hana和OracleExadata,除Hadoop以作離線分析爲主以外,其餘產品可作實時分析。

挖掘數據

定義:基於前面的查詢數據進行數據挖掘,來知足高級別 的數據分析需求。

特色和挑戰:算法複雜,而且計算涉及的數據量和計算量都大。

使用的產品:R,Hadoop Mahout

7操做方法

編輯
 

SOA模型

咱們須要的是以數據爲中心的SOA仍是以SOA爲中心的數據?答案取決於如何處理的SOA-數據關係的三個不一樣模型來管理大數據、雲數據和數據層次結構。在愈來愈多的虛擬資源中,將這些模型之間全部類型的數據進行最優擬合是SOA所面臨的巨大挑戰之一。本文詳細介紹了每一個SOA模型管理數據的優勢、選擇和選項。

SOA的三個數據中心模型分別是數據即服務(DaaS)模型、物理層次結構模型和架構組件模型。DaaS數據存取的模型描述了數據是如何提供給SOA組件的。物理模型描述了數據是如何存儲的以及存儲的層次圖是如何傳送到SOA數據存儲器上的。最後,架構模型描述了數據、數據管理服務和SOA組件之間的關係。

SOA和數據企業的例子

也許以極限狀況爲開始是理解SOA數據問題的最好方式:一個企業的數據需求徹底能夠由關係數據庫管理系統(RDBMS)中的條款來表示。這樣一個企業可能會直接採用數據庫設備或者將專用的數據庫服務器和現有的查詢服務鏈接到SOA組件(查詢即服務,或QaaS)上。這種設計理念以前已經被人們所接受。該設計之因此成功是由於它平衡了上述三個模型之間的關係。QaaS服務模型不是機械地鏈接到存儲器上;而是經過一個單一的架構——RDBMS(關係型數據庫管理系統)。數據去重和完整性便於管理單一的架構。

經過大數據的例子能夠更好地理解爲何這個簡單的方法卻不能在更大的範圍內處理數據。多數的大數據是非關係型的、非交易型的、非結構化的甚至是未更新的數據。因爲缺少數據結構所以將其抽象成一個查詢服務並不是易事,因爲數據有多個來源和形式所以不多按序存儲,而且定義基礎數據的完整性和去重過程是有一些規則的。看成爲大數據引入到SOA的應用程序中時,關鍵是要定義三種模型中的最後一種模型,SOA數據關係中的架構模型。有兩種選擇:水平方向和垂直方向。

大數據:「人工特徵工程+線性模型」的盡頭SOA和各種數據模型

在水平集成數據模型中,數據收集隱蔽於一套抽象的數據服務器,該服務器有一個或多個接口鏈接到應用程序上,也提供全部的完整性和數據管理功能。組件雖不能直接訪問數據,但做爲一種即服務形式,就像他們在簡單狀況下的企業,其數據的要求是純粹的RDBMS模型。應用程序組件基本上脫離了RDBMS與大數據之間數據管理的差別。儘管因爲上述緣由這種方法不能建立簡單的RDBMS查詢模型,可是它至少複製了咱們上面提到的簡單的RDBMS模型。

垂直集成的數據模型以更多應用程序特定的方式鏈接到數據服務上,該方式使得客戶關係管理、企業資源規劃或動態數據認證的應用程序數據很大程度在服務水平上相互分離,這種分離直接涉及到數據基礎設施。在某些狀況下,這些應用程序或許有能夠直接訪問存儲/數據服務的SOA組件。爲了提供更多統一的數據完整性和管理,管理服務器能夠做爲SOA組件來操做各類數據庫系統,以數據庫特定的方式執行常見的任務,如去重和完整性檢查。這種方法更容易適應於遺留應用和數據結構, 但它在問數據何訪方式上會破壞SOA即服務原則,也可能產生數據管理的一致性問題。

SOA和水平數據模型

毫無疑問水平模型更符合SOA原則,由於它更完全地從SOA組件中抽象出了數據服務。不過,爲了使其有效,有必要對非關係型數據庫進行抽象定義和處理低效率與抽象有關的流程——SOA架構師知道除非當心的避免此類事情不然這將會成爲不可逾越的障礙。

水平的SOA數據策略已經開始應用於適用大數據的抽象數據。解決這個問題最多見的方法是MapReduce,能夠應用於Hadoop形式的雲構架。Hadoop以及相似的方法能夠分發、管理和訪問數據,而後集中查詢這一分佈式信息的相關結果。實際上,SOA組件應將MapReduce和相似數據分析功能做爲一種查詢功能應用。

效率問題

效率問題較爲複雜。由於水平數據庫模型多是經過相似大多數SOA流程的信息服務總線來完成的,一個重要的步驟是要確保與該編排相關的開銷額度保持在最低程度。這能夠幫助減小與SOA相關的數據訪問開銷,但它不能克服存儲系統自己的問題。由於這些存儲系統已經經過水平模型脫離了SOA組件,很容易被忽略與延遲和數據傳輸量相關的問題,特別地,若是數據庫是雲分佈的,那麼使用他們就會產生可變的網絡延遲

上述問題的一個解決方案是現代分層存儲模式。數據庫不是磁盤,而是一組相互鏈接的高速緩存點,其存儲於本地內存中,也可能轉向固態硬盤,而後到本地磁盤,最後到雲存儲。緩存算法處理這些緩存點之間的活動,從而來平衡存儲成本(同時也是平衡同步地更新成本)和性能。

大數據應用領域對於大數據,它也是常常能夠建立適用於大多數分析的彙總數據。例如一個計算不一樣地點車輛數量的交通遙測應用。這種方法能夠產生大量的數據,可是若是彙總數據最後一分鐘還存儲在內存中,最後一小時存儲在閃存中,最後一天存在磁盤上,那麼控制應用程序所需的實際時間能夠經過快速訪問資源獲得知足,然而假設分析時咱們能夠使用一些更便宜、更慢的應用程序是會怎樣。

SOA都是抽象的,但當抽象隱藏了底層影響性能和響應時間的複雜性時,這種抽象的危險程度會提升。數據訪問也是這樣的,所以,SOA架構師須要認真地考慮抽象與性能之間的平衡關係,併爲其特定的業務需求優化它。

Hadoop

Hadoop旨在經過一個高度可擴展的分佈式批量處理系統,對大型數據集進行掃描,以產生其結果。Hadoop項目包括三部分,分別是Hadoop Distributed File System(HDFS)、HadoopMapReduce編程模型,以及Hadoop Common。

Hadoop平臺對於操做很是大型的數據集而言能夠說是一個強大的工具。爲了抽象Hadoop編程模型的一些複雜性,已經出現了多個在Hadoop之上運行的應用開發語言。Pig、Hive和Jaql是其中的表明。而除了Java外,您還可以以其餘語言編寫map和reduce函數,並使用稱爲Hadoop Streaming(簡寫爲Streaming)的API調用它們。

流定義

從技術角度而言,流是經過邊緣鏈接的節點圖。圖中的每一個節點都是「運算符」或「適配器」,均可以在某種程度上處理流內的數據。節點能夠不包含輸入和輸出,也能夠包含多個輸入和輸出。一個節點的輸出與另一個或多個節點的輸入相互鏈接。圖形的邊緣將這些節點緊密聯繫在一塊兒,表示在運算符之間移動的數據流。

右圖一個簡單的流圖,它能夠從文件中讀取數據,將數據發送到名爲Functor的運算符(此運算符可以以某種編程方式轉換所傳入的數據),而後將這些數據傳入另外一個運算符。在此圖片中,流數據被傳送至Split運算符,然後又將數據傳入文件接收器或數據庫(具體狀況視Split運算符的內部情況而定)。

利用Apache Hadoop等開源項目,經過傳感器、RFID、社交媒體、呼叫中心記錄和其餘來源提供的新型數據創造價值。

Streams

大數據應用領域即,IBM InfoSphere Streams。在IBMInfoSphere Streams(簡稱Streams)中,數據將會流過有能力操控數據流(每秒鐘可能包含數百萬個事件)的運算符,而後對這些數據執行動態分析。這項分析可觸發大量事件,使企業利用即時的智能實時採起行動,最終改善業務成果。

當數據流過這些分析組件後,Streams將提供運算符將數據存儲至各個位置,或者若是通過動態分析某些數據被視爲毫無價值,則會丟棄這些數據。你可能會認爲Streams與復瑣事件處理(CEP) 系統非類似,不過Streams的設計可擴展性更高,而且支持的數據流量也比其餘系統多得多。此外,Streams還具有更高的企業級特性,包括高可用性、豐富的應用程序開發工具包和高級調度。

出於這樣的目的,許多組織開始啓動本身的大數據治理計劃。所謂大數據治理,指的是制定策略來協調多個職能部門的目標,從而優化、保護和利用大數據,將其做爲一項企業資產。

8主要問題

編輯

容量問題

這裏所說的「大容量」一般可達到PB級的數據規模,所以,海量數據存儲系統也必定要有相應等級的擴展能力。與此同時,存儲系統的擴展必定要簡便,能夠經過增長模塊或磁盤櫃來增長容量,甚至不須要停機。在解決容量問題上,不得不提LSI公司的全新Nytro™智能化閃存解決方案,採用Nytro產品,客戶能夠將數據庫事務處理性能提升30倍,而且超過每秒4.0GB的持續吞吐能力,很是適用於大數據分析

延遲問題

「大數據」應用還存在實時性的問題。特別是涉及到與網上交易或者金融類相關的應用。有不少「大數據」應用環境須要較高的IOPS性能,好比HPC高性能計算。此外,服務器虛擬化的普及也致使了對高IOPS的需求,正如它改變了傳統IT環境同樣。爲了迎接這些挑戰,各類模式的固態存儲設備應運而生,小到簡單的在服務器內部作高速緩存,大到全固態介質可擴展存儲系統經過高性能閃存存儲,自動、智能地對熱點數據進行讀/寫高速緩存的LSI Nytro系列產品等等都在蓬勃發展。

安全問題

某些特殊行業的應用,好比金融數據、醫療信息以及政府情報等都有本身的安全標準和保密性需求。雖然對於IT管理者來講這些並無什麼不一樣,並且都是必須聽從的,可是,大數據分析每每須要多類數據相互參考,而在過去並不會有這種數據混合訪問的狀況,大數據應用催生出一些新的、須要考慮的安全性問題,這就充分體現出利用基於DuraClass™ 技術的LSI SandForce®閃存處理器的優點了,實現了企業級閃存性能和可靠性,實現簡單、透明的應用加速,既安全又方便。

大數據應用領域成本問題

對於那些正在使用大數據環境的企業來講,成本控制是關鍵的問題。想控制成本,就意味着咱們要讓每一臺設備都實現更高的「效率」,同時還要減小那些昂貴的部件。重複數據刪除等技術已經進入到主存儲市場,並且還能夠處理更多的數據類型,這均可覺得大數據存儲應用帶來更多的價值,提高存儲效率。在數據量不斷增加的環境中,經過減小後端存儲的消耗,哪怕只是下降幾個百分點,這種錙銖必較的服務器也只有LSI推出的Syncro™ MX-B機架服務器啓動盤設備都可以得到明顯的投資回報,當今,數據中心使用的傳統引導驅動器不只故障率高,並且具備較高的維修和更換成本。若是用它替換數據中心的獨立服務器引導驅動器,則能將可靠性提高多達100倍。而且對主機系統是透明的,能爲每個附加服務器提供惟一的引導鏡像,可簡化系統管理,提高可靠性,而且節電率高達60%,真正作到了節省成本的問題。

數據的積累

許多大數據應用都會涉及到法規聽從問題,這些法規一般要求數據要保存幾年或者幾十年。好比醫療信息一般是爲了保證患者的生命安全,而財務信息一般要保存7年。而有些使用大數據存儲的用戶卻但願數據可以保存更長的時間,由於任何數據都是歷史記錄的一部分,並且數據的分析大都是基於時間段進行的。要實現長期的數據保存,就要求存儲廠商開發出可以持續進行數據一致性檢測的功能以及其餘保證長期高可用的特性。同時還要實現數據直接在原位更新的功能需求。

靈活性

大數據存儲系統的基礎設施規模一般都很大,所以必須通過仔細設計,才能保證存儲系統的靈活性,使其可以隨着應用分析軟件一塊兒擴容及擴展。在大數據存儲環境中,已經沒有必要再作數據遷移了,由於數據會同時保存在多個部署站點。一個大型的數據存儲基礎設施一旦開始投入使用,就很難再調整了,所以它必須可以適應各類不一樣的應用類型和數據場景。

應用感知

最先一批使用大數據的用戶已經開發出了一些針對應用的定製的基礎設施,好比針對政府項目開發的系統,還有大型互聯網服務商創造的專用服務器等。在主流存儲系統領域,應用感知技術的使用愈來愈廣泛,它也是改善系統效率和性能的重要手段,因此,應用感知技術也應該用在大數據存儲環境裏。

針對小用戶

依賴大數據的不只僅是那些特殊的大型用戶羣體,做爲一種商業需求,小型企業將來也必定會應用到大數據。咱們看到,有些存儲廠商已經在開發一些小型的「大數據」存儲系統,主要吸引那些對成本比較敏感的用戶。

9治理計劃

編輯

大數據大數據治理計劃也須要關注與其餘信息治理計劃相似的問題。這些計劃必須解決如下問題:

■元數據

大數據治理須要建立可靠的元數據,避免出現窘境,例如,一家企業重複購買了相同的數據集兩次,而緣由僅僅是該數據集在兩個不一樣的存儲庫內使用了不一樣的名稱。

■隱私

企業須要嚴格關注遵照隱私方面的問題,例如利用社交媒體進行數據分析。

■數據質量

考慮到大數據的龐大數量和超快速度,組織須要肯定哪一種級別的數據質量屬於「足夠好」的質量。

信息生命週期管理。大數據治理計劃須要制定存檔策略,確保存儲成本不會超出控制。除此以外,組織須要設定保留計劃,以便按照法規要求合理處置數據。

■管理人員

最終,企業須要招募大數據管理員。例如,石油與自然氣公司內的勘探開採部門的管理員負責管理地震數據,包括相關元數據在內。這些管理員須要避免組織因不一致的命名規範而付款購買已經擁有的外部數據。除此以外,社交媒體管理員須要與法律顧問和高級管理人員配合工做,制定有關可接受的信息使用方法的策略。

10價值機遇

編輯
 

數據價值

衆所周知,企業數據自己就蘊藏着價值,可是將有用的數據與沒有價值的數據進行區分看起來多是一個棘手的問題。

顯然,您所掌握的人員狀況、工資表和客戶記錄對於企業的運轉相當重要,可是其餘數據也擁有轉化爲價值的力量。一段記錄人們如何在您的商店瀏覽購物的視頻、人們在購買您的服務先後的所做所爲、如何經過社交網絡聯繫您的客戶、是什麼吸引合做夥伴加盟、客戶如何付款以及供應商喜歡的收款方式……全部這些場景都提供了不少指向,將它們抽絲剝繭,透過特殊的棱鏡觀察,將其與其餘數據集對照,或者以不同凡響的方式分析解剖,就能讓您的行事方式發生天翻地覆的轉變。

可是家常便飯的是,不少公司仍然只是將信息簡單堆在一塊兒,僅將其看成爲知足公司治理規則而必需要保存的信息加以處理,而不是將它們做爲戰略轉變的工具。

畢竟,數據和人員是業務部門僅有的兩筆沒法被競爭對手複製的財富。在善用的人手中,好的數據是全部管理決策的基礎,帶來的是對客戶的深刻了解和競爭優點。數據是業務部門的生命線,必須讓數據在決策和行動時無縫且安全地流到人們手中。

大數據應用因此,數據應該隨時爲決策提供依據。看看在政府公開道路和公共交通的使用信息這樣看起來甚至有點晦澀的數據時會發生什麼:這些數據來源爲一些私營公司提供了巨大的價值,這些公司可以善用這些數據,創造知足潛在需求的新產品和服務。

企業須要向創造和取得數據方面的投入索取回報。有效管理來自新舊來源的數據以及獲取可以破解龐大數據集含義的工具只是等式的一部分,可是這種挑戰不容低估。產生的數據在數量上持續膨脹;音頻、視頻和圖像等富媒體須要新的方法來發現;電子郵件、IM、tweet和社交網絡等合做和交流系統以非結構化文本的形式保存數據,必須用一種智能的方式來解讀。

可是,應該將這種複雜性當作是一種機會而不是問題。處理方法正確時,產生的數據越多,結果就會越成熟可靠。傳感器、GPS系統和社交數據的新世界將帶來轉變運營的驚人新視角和機會。請不要錯過。

有些人會說,數據中蘊含的價值只能由專業人員來解讀。可是澤字節經濟並不僅是數據科學家和高級開發員的天下。

數據的價值在於將正確的信息在正確的時間交付到正確的人手中。將來將屬於那些可以駕馭所擁有數據的公司,這些數據與公司自身的業務和客戶相關,經過對數據的利用,發現新的洞見,幫助他們找出競爭優點。

數據機遇

自從有了IT部門,董事會就一直在要求信息管理專家提供洞察力。實際上,早在1951年,對預測小吃店蛋糕需求的訴求就催生了計算機的首次商業應用。自那之後,咱們利用技術來識別趨勢和制定戰略戰術的能力不斷呈指數級日臻完善。

今天,商業智能 (使用數據模式看清曲線周圍的一切) 穩居 CXO 們的重中之重。在理想的世界中,IT 是巨大的槓桿,改變了公司的影響力,帶來競爭差別、節省金錢、增長利潤、愉悅買家、獎賞忠誠用戶、將潛在客戶轉化爲客戶、增長吸引力、戰勝競爭對手、開拓用戶羣並創造市場。

大數據分析是商業智能的演進。當今,傳感器、GPS 系統、QR 碼、社交網絡等正在建立新的數據流。全部這些均可以獲得發掘,正是這種真正廣度和深度的信息在創造不勝枚舉的機會。要使大數據言之有物,以便讓大中小企業都能經過更加貼近客戶的方式取得競爭優點,數據集成和數據管理是核心所在。

面臨從全球化到衰退威脅的風暴, IT部門領導須要在掘金大數據中打頭陣,新經濟環境中的贏家將會是最好地理解哪些指標影響其大步前進的人。

大數據應用固然,企業仍將須要聰明的人員作出睿智的決策,瞭解他們面臨着什麼,在充分利用的狀況下,大數據能夠賦予人們近乎超感官知覺的能力。Charles Duigg是《習慣的力量》一書的做者,他找出的一個黃金案例分析的例子是美國零售商 Target,其發現婦女在懷孕的中間三個月會常常購買沒有氣味的護膚液和某些維生素。經過鎖定這些購物者,商店可提供將這些婦女變成忠誠客戶的優惠券。實際上,Target 知道一位婦女懷孕時,那位婦女甚至尚未告訴最親近的親朋好友 -- 更不要說商店本身了。

很明顯,在能夠預見的未來,隱私將還是重要的考量,可是歸根結底,用於瞭解行爲的技術會爲方方面面帶來共贏,讓賣家瞭解買家,讓買家喜歡買到的東西。

再看一下做家兼科學家 Stephen Wolfram的例子,他收集有關自身習慣的數據,以分析他的我的行爲,預測事件在將來的可能性。

大數據將會放大咱們的能力,瞭解看起來難以理解和隨機的事物。對其前途的瞭解提供了獲取嶄新知識和能力的機會,將改變您的企業運做的方式。

發展前景

大數據的意義是由人類日益普及的網絡行爲所伴生的,受到相關部門、企業採集的,蘊含數據生產者真實意圖、喜愛的,非傳統結構和意義的數據 。

2013年5月10日,阿里巴巴集團董事局主席馬雲淘寶十週年晚會上,將卸任阿里集團CEO的職位,並在晚會上作卸任前的演講,馬雲說,你們還沒搞清PC時代的時候,移動互聯網來了,還沒搞清移動互聯網的時候,大數據時代來了。

大數據正在改變着產品和生產過程、企業和產業,甚至競爭自己的性質。把信息技術看做是輔助或服務性的工具已經成爲過期的觀念,管理者應該認識到信息技術的普遍影響和深入含義,以及怎樣利用信息技術來創造有力而持久的競爭優點。無疑,信息技術正在改變着咱們習覺得常的經營之道,一場關係到企業生死存亡的技術革命已經到來。

藉着大數據時代的熱潮,微軟公司生產了一款數據驅動的軟件,主要是爲工程建設節約資源提升效率。在這個過程裏能夠爲世界節約40%的能源。拋開這個軟件的前景不看,從微軟團隊致力於研究開始,能夠看他們的目標不只是爲了節約了能源,更加關注智能化運營。經過跟蹤取暖器、空調、風扇以及燈光等積累下來的超大量數據,捕捉如何杜絕能源浪費。「給我提供一些數據,我就能作一些改變。若是給我提供全部數據,我就能拯救世界。」微軟史密斯這樣說。而智能建築正是他的團隊專一的事情。

隨着全球範圍內我的電腦、智能手機等設備的普及和新興市場內不斷增加的互聯網訪問量,以及監控攝像機智能電錶等設備產生的數據爆增,使數字宇宙的規模在2012到2013兩年間翻了一番,達到驚人的2.8ZB。 IDC預計,到2020年,數字宇宙規模將超出預期,達到40ZB。

大數據應用40ZB到底是個什麼樣的概念呢?地球上全部海灘上的沙粒加在一塊兒估計有七萬零五億億顆。40ZB至關於地球上全部海灘上的沙粒數量的57倍。也就是說到2020年,數字宇宙將每兩年翻一番;到2020年,人均數據量將達5,247GB。

該報告同時顯示,儘管我的和機器天天產生大量數據,使數字宇宙史無前例地不斷膨脹,但僅有0.4%的全球數據獲得了分析。因而可知,大數據的應用幾乎是一塊未被開墾的處女地。

價值

谷歌搜索、Facebook的帖子和微博消息使得人們的行爲和情緒的細節化測量成爲可能。挖掘用戶的行爲習慣和喜愛,凌亂紛繁的數據背後找到更符合用戶興趣和習慣的產品和服務,並對產品和服務進行鍼對性地調整和優化,這就是大數據的價值。大數據也日益顯現出對各個行業的推動力。

大數據時代來臨首先由數據豐富度決定的。社交網絡興起,大量的UGC(互聯網術語,全稱爲User Generated Content,即用戶生成內容的意思)內容、音頻、文本信息、視頻、圖片等非結構化數據出現了。另外,物聯網的數據量更大,加上移動互聯網能更準確、更快地收集用戶信息,好比位置、生活信息等數據。從數據量來講,已進入大數據時代,但硬件明顯已跟不上數據發展的腳步。

以往大數據一般用來形容一個公司創造的大量非結構化和半結構化數據,而說起「大數據」,一般是指解決問題的一種方法,並對其進行分析挖掘,進而從中得到有價值信息,最終衍化出一種新的商業模式。

雖然大數據在國內還處於初級階段,可是商業價值已經顯現出來。首先,手中握有數據的公司站在金礦上,基於數據交易便可產生很好的效益;其次,基於數據挖掘會有不少商業模式誕生,定位角度不一樣,或側重數據分析。好比幫企業作內部數據挖掘,或側重優化,幫企業更精準找到用戶,下降營銷成本,提升企業銷售率,增長利潤。

將來,數據可能成爲最大的交易商品。但數據量大並不能算是大數據,大數據的特徵是數據量大、數據種類多、非標準化數據的價值最大化。所以,大數據的價值是經過數據共享、交叉複用後獲取最大的數據價值。將來大數據將會如基礎設施同樣,有數據提供方、管理者、監管者,數據的交叉複用將大數據變成一大產業。據統計,大數據所造成的市場規模在51億美圓左右,而到2017年,此數據預計會上漲到530億美圓。

存儲

隨着大數據應用的爆發性增加,它已經衍生出了本身獨特的架構,並且也直接推進了存儲、網絡以及計算技術的發展。畢竟處理大數據這種特殊的需求是一個新的挑戰。硬件的發展最終仍是由軟件需求推進的,咱們很明顯的看到大數據分析應用需求正在影響着數據存儲基礎設施的發展。從另外一方面看,這一變化對存儲廠商和其餘IT基礎設施廠商何嘗不是一個機會。隨着結構化數據和非結構化數據量的持續增加,以及分析數據來源的多樣化,此前存儲系統的設計已經沒法知足大數據應用的須要。存儲廠商已經意識到這一點,他們開始修改基於塊和文件的存儲系統的架構設計以適應這些新的要求。

針對大數據的世界領先品牌存儲企業有:IBM、EMC、LSISandForce 、 雲創存儲、INTEL、惠普、戴爾、甲骨文、日立、賽門鐵克等。

11數據回報

編輯

「大數據」的商業價值簡而言之,企業能夠經過思考數據戰略的整體回報,來應對大數據的挑戰,抓住大數據的機會。Informatica所指的‘數據回報率’,是爲幫助高級IT和業務部門領導者進行大數據基本的戰術和戰略含義的討論而設計的一個簡單概念。等式很是簡單:若是您提升數據對於業務部門的價值,同時下降管理數據的成本,從數據獲得的回報就會增長 -- 不管是用金錢衡量,仍是更好的決策

數據回報率=數據價值/數據成本

在技術層面,數據回報率爲數據集成、數據管理、商業智能和分析方面的投入提供了業務背景和案例。它還與解決業務的基礎有關:掙錢、省錢、創造機會和管理風險。它涉及對效率的考慮,同時推進了改變遊戲規則的洞察力。

實現回報

Informatica深知,對於不少企業來講,向數據回報模型的轉變不會一蹴而就。管理數據並將其成本下降的短時間要求將會是首要焦點,一樣還須要打破障礙以瞭解數據。企業只有這時才能夠開始從傳統和新興數據集得到更多價值。Informatica可提供數據集成平臺和領導力,爲企業提供全程幫助。

在大數據的世界中,最靈活和成功的企業將會是那些善用大機遇的公司。

12意義用途

編輯

意義

1.變革價值的力量

將來十年,決定中國是否是有大智慧的核心意義標準(那個」思想者」),就是國民幸福。一體現到民生上,經過大數據讓事情變得澄明,看咱們在人與人關係上,作得是否比之前更有意義;二體如今生態上,看咱們在天與人關係上,作得是否比之前更有意義。總之,讓咱們從前10年的意義混沌時代,進入將來10年意義澄明時代。

2.變革經濟的力量

生產者是有價值的,消費者是價值的意義所在。有意義的纔有價值,消費者不認同的,就賣不出去,就實現不了價值;只有消費者認同的,才賣得出去,才實現得了價值。大數據幫助咱們從消費者這個源頭識別意義,從而幫助生產者實現價值。這就是啓動內需的原理。

3.變革組織的力量

隨着具備語義網特徵的數據基礎設施和數據資源發展起來,組織的變革就愈來愈顯得不可避免。大數據將推進網絡結構產生無組織的組織力量。最早反映這種結構特色的,是各類各樣去中心化WEB2.0應用,如RSS、維基、博客等。 大數據之因此成爲時代變革力量,在於它經過追隨意義而得到智慧。

用途

大數據可分紅大數據技術、大數據工程、大數據科學和大數據應用等領域。目前人們談論最多的是大數據技術和大數據應用。工程和科學問題還沒有被重視。大數據工程指大數據的規劃建設運營管理的系統工程;大數據科學關注大數據網絡發展和運營過程當中發現和驗證大數據的規律及其與天然和社會活動之間的關係。

大數據與雲計算的關係物聯網、雲計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍及地球各個角落的各類各樣的傳感器,無一不是數據來源或者承載的方式。

有些例子包括網絡日誌,RFID,傳感器網絡社會網絡,社會數據(因爲數據革命的社會),互聯網文本和文件;互聯網搜索索引;呼叫詳細記錄,天文學,大氣科學,基因組學,生物地球化學,生物,和其餘複雜和/或跨學科的科研,軍事偵察,醫療記錄;攝影檔案館視頻檔案;和大規模的電子商務。

弊端

雖然大數據的擁護者看到了使用大數據的巨大潛力,但也有隱私倡導者擔憂,由於愈來愈多的人開始收集相關數據,不管是他們是否會故意透露這些數據或經過社交媒體張貼,甚至他們在不知不覺中經過分享本身的生活而公佈了一些具體的數字細節。

分析這些巨大的數據集會使咱們的預測能力產生虛假的信息,將致使做出許多重大和有害的錯誤決定。此外,數據被強大的人或機構濫用,自私的操縱議程達到他們想要的結果。

13科學應用

編輯

洛杉磯警察局加利福尼亞大學合做利用大數據預測犯罪的發生。

google流感趨勢(Google Flu Trends)利用搜索關鍵詞預測禽流感的散佈。

統計學家內特.西爾弗(Nate Silver)利用大數據預測2012美國選舉結果。

麻省理工學院利用手機定位數據和交通數據創建城市規劃。

梅西百貨的實時訂價機制,根據需求和庫存的狀況,該公司基於SAS的系統對多達7300萬種貨品進行實時調價。

Tipp24 AG針對歐洲博彩業構建的下注和預測平臺。該公司用KXEN軟件來分析數十億計的交易以及客戶的特性,而後經過預測模型對特定用戶進行動態的營銷活動。這項舉措減小了90%的預測模型構建時間。SAP公司正在試圖收購KXEN。「SAP想經過此次收購來扭轉其長久以來在預測分析方面的劣勢。」Laney分析到。

PredPol Inc. 公司經過與洛杉磯和聖克魯斯的警方以及一羣研究人員合做,基於地震預測算法的變體和犯罪數據來預測犯罪發生的概率,能夠精確到500平方英尺的範圍內。在洛杉磯運用該算法的地區,盜竊罪暴力犯罪分佈降低了33%和21%。

American Express(美國運通,AmEx)和商業智能。以往,AmEx只能實現過後諸葛式的報告和滯後的預測。「傳統的BI已經沒法知足業務發展的須要。」Laney認爲。因而,AmEx開始構建真正可以預測忠誠度的模型,基於歷史交易數據,用115個變量來進行分析預測。該公司表示,對於澳大利亞將於以後四個月中流失的客戶,已經可以識別出其中的24%。

大數據實踐 基礎架構先行Express Scripts Holding Co.的產品製造。該公司發現那些須要服藥的人經常也是最可能忘記服藥的人。所以,他們開發了一個新產品:會響鈴的藥品蓋和自動的電話呼叫,以此提醒患者按時服藥。

Infinity Property & Casualty Corp.的黑暗數據(dark data)。Laney對於黑暗數據的定義是,那些針對單一目標而收集的數據,一般用過以後就被歸檔閒置,其真正價值未能被充分挖掘。在特定狀況下,這些數據能夠用做其餘用途。該公司用累積的理賠師報告來分析欺詐案例,經過算法挽回了1200萬美圓的代位追償金額。

利用起互聯網大數據,對消費者的喜愛進行斷定。商戶能夠爲消費者定製相應的獨特的個性服務,甚至能夠在一些商品或者服務上匹配用戶心情等等。商家還能夠根據大數據爲消費者提供其可能會喜愛的特點產品,活動,小而美的小衆商品等等 。

地產業的升級改造,具備使人興奮的商業前景。一個Shopping Mall的投資每每高達數十億元,設想一下,若是智能化升級可以讓一個Shopping Mall的顧客數量和人均消費提高30%-50%,爲此投入幾百萬元甚至上千萬元對於投資方來講很是划算,那麼僅僅針對國內Shopping Mall的智能化升級就是一個千億元級別的市場。

經典大數據案例-沃爾瑪經典營銷:啤酒與尿布

「啤酒與尿布」的故事產生於20世紀90年代美國沃爾瑪超市中,沃爾瑪的超市管理人員分析銷售數據時發現了一個使人難於理解的現象:在某些特定的狀況下,「啤酒」與「尿布」兩件看上去毫無關係的商品會常常出如今同一個購物籃中,這種獨特的銷售現象引發了管理人員的注意,通過後續調查發現,這種現象出如今年輕的父親身上。

在美國有嬰兒的家庭中,通常是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時,每每會順便爲本身購買啤酒,這樣就會出現啤酒與尿布這兩件看上去不相干的商品常常會出如今同一個購物籃的現象。若是這個年輕的父親在賣場只能買到兩件商品之一,則他頗有可能會放棄購物而到另外一家商店, 直到能夠一次同時買到啤酒與尿布爲止。沃爾瑪發現了這一獨特的現象,開始在賣場嘗試將啤酒與尿布擺放在相同的區域,讓年輕的父親能夠同時找到這兩件商品,並很快地完成購物;而沃爾瑪超市也可讓這些客戶一次購買兩件商品、而不是一件,從而得到了很好的商品銷售收入,這就是「啤酒與尿布」 故事的由來。

固然「啤酒與尿布」的故事必須具備技術方面的支持。1993年美國學者Agrawal提出經過分析購物籃中的商品集合,從而找出商品之間關聯關係的關聯算法,並根據商品之間的關係,找出客戶的購買行爲。艾格拉沃從數學及計算機算法角度提 出了商品關聯關係的計算方法——Aprior算法。沃爾瑪從上個世紀 90 年代嘗試將 Aprior 算 法引入到 POS機數據分析中,並得到了成功,因而產生了「啤酒與尿布」的故事。

IBM戰略

IBM的大數據戰略以其在2012年5月發佈智慧分析洞察「3A5步」動態路線圖做爲基礎。所謂「3A5步」,指的是在「掌握信息」(Align)的基礎上「獲取洞察」(Anticipate),進而採起行動(Act),優化決策策劃可以救業務績效。除此以外,還須要不斷地「學習」(Learn)從每一次業務結果中得到反饋,改善基於信息的決策流程,從而實現「轉型」(Transform)。

大數據基於「3A5步」動態路線圖,IBM提出了「大數據平臺」架構。該平臺的四大核心能力包括Hadoop系統、流計算(StreamComputing)、數據倉庫(Data Warehouse)和信息整合與治理(Information Integration and Governance)。

在大數據處理領域,IBM於2012年10月推出了IBMPureSystems專家集成系統的新成員——IBM PureData系統。這是IBM在數據處理領域發佈的首個集成系統產品系列。PureData系統具體包含三款產品,分別爲PureDataSystem for Transactions、PureData System forAnalytics和PureData System for Operational Analytics,可分別應用於OLTP(聯機事務處理)、OLAP(聯機分析處理)和大數據分析操做。與此前發佈的IBMPureSystems系列產品同樣,IBM PureData系統提供內置的專業知識、源於設計的集成,以及在其整個生命週期中的簡化體驗。

斯隆數字巡天收集在其最初的幾個星期,就比在天文學的歷史上以前的2000年的收集了更多的數據。自那時以來,它已經積累了140兆兆 字節的信息。這個望遠鏡的繼任者,大天氣巡天望遠鏡,將於2016年在網上將得到數據公佈,沃爾瑪每隔一小時處理超過100萬客戶的交易,錄入量數據庫估計超過2.5 PB至關於美國國會圖書館的書籍的167倍 。FACEBOOK從它的用戶羣得到並處理400億張照片。解碼最原始的人類基因組花費10年時間處理,現在能夠在一個星期內實現。

「大數據」的影響,增長了對信息管理專家的需求,甲骨文,IBM,微軟和SAP花了超過15億美圓的在軟件智能數據管理和分析的專業公司。這個行業自身價值超過1000億美圓,增加近10%,每一年兩次,這大概是做爲一個總體的軟件業務的快速。

大數據已經出現,由於咱們生活在一個有更多信息的社會中。有46億全球移動電話用戶有20億人訪問互聯網。基本上,人們比以往任什麼時候候都與數據或信息交互。 1990年至2005年,全球超過1億人進入中產階級,這意味着愈來愈多的人收益的這筆錢將反過來致使更多的信息增加。思科公司預計,到2013年,在互聯網上流動的交通量將達到每一年667艾字節。

大數據,其影響除了經濟方面的,它同時也能在政治、文化等方面產生深遠的影響,大數據能夠幫助人們開啓循「數」管理的模式,也是咱們當下「大社會」的集中體現,三分技術,七分數據,得數據者得天下。

14商業模式

編輯

大數據實踐國內網絡廣告投放正從傳統的面向羣體的營銷轉向個性化營銷,從流量購買轉向人羣購買。雖然市場大環境很差,可是具有數據挖掘能力的公司卻倍受資本青睞。

163大數據是一個很好的視角和工具。從資本角度來看,什麼樣的公司有價值,什麼樣的公司沒有價值,從其擁有的數據規模、數據的活性和這家公司能運用、解釋數據的能力,就能夠看出這家公司的核心競爭力。而這幾個能力正是資本關注的點。

移動互聯網與社交網絡興起將大數據帶入新的征程,互聯網營銷將在行爲分析的基礎上向個性化時代過渡。創業公司應用「大數據」告訴廣告商什麼是正確的時間,誰是正確的用戶,什麼是應該發表的正確內容等,這正好切中了廣告商的需求。

社交網絡產生了海量用戶以及實時和完整的數據,同時社交網絡也記錄了用戶羣體的情緒,經過深刻挖掘這些數據來了解用戶,而後將這些分析後的數據信息推給須要的品牌商家或是微博營銷公司。

實際上,將用戶羣精準細分,直接找到要找的用戶正是社交內容背後數據挖掘所帶來的結果。而經過各類算法實現的數據信息交易,正是張文浩爲本身的社交數據挖掘公司設計的盈利模式。這家僅僅五六我的的小公司拿到了天使投資。將來的市場將更多地以人爲中心,主動迎合用戶需求,前提就是要找到這部分人羣。

在移動互聯網領域,公司從開發者角度找到數據挖掘的方向,經過提供免費的技術服務,幫助開發者瞭解應用情況。

15企業應對

編輯

國內的企業跟美國比較,有一個很重要的特性就是人口基數的區別,中國消費羣體所產生的這種數據量,與國外相比不可同日而語。

伴隨着各類隨身設備、物聯網和雲計算雲存儲等技術的發展,人和物的全部軌跡均可以被記錄。在移動互聯網的核心網絡節點是人,再也不是網頁。數據大爆炸下,怎樣挖掘這些數據,也面臨着技術與商業的雙重挑戰。

首先,如何將數據信息與產品和人相結合,達到產品或服務優化是大數據商業模式延展上的挑戰之一。

其次,巧婦難爲無米之炊,大數據的關鍵仍是在於誰先擁有數據。

從市場角度來看,大數據還面臨其餘因素的挑戰。

產業界對於大數據的熱情持續升溫的同時,資本也敏銳地發現了這一趨勢,並開始關注數據挖掘和服務類公司。

最先提出「大數據」時代已經到來的機構是全球知名諮詢公司麥肯錫。麥肯錫在研究報告中指出,數據已經滲透到每個行業和業務職能領域,逐漸成爲重要的生產因素;而人們對於海量數據的運用將預示着新一波生產率增加和消費者盈餘浪潮的到來。

大數據時代:如何節省存儲成本「麥肯錫的報告發布後,大數據迅速成爲了計算機行業爭相傳誦的熱門概念,也引發了金融界的高度關注。」隨着互聯網技術的不斷髮展,數據自己是資產,這一點在業界已經造成共識。「若是說雲計算爲數據資產提供了保管、訪問的場所和渠道,那麼如何盤活數據資產,使其爲國家治理、企業決策乃至我的生活服務,則是大數據的核心議題,也是雲計算內在的靈魂和必然的升級方向。」

事實上,全球互聯網巨頭都已意識到了「大數據」時代,數據的重要意義。包括EMC、惠普、IBM、微軟在內的全球IT 巨頭紛紛經過收購「大數據」相關廠商來實現技術整合,亦可見其對「大數據」的重視。

「大數據」做爲一個較新的概念,目前還沒有直接以專有名詞被我國政府提出來給予政策支持。不過,在2011年12月8日工信部發布的物聯網「十二五」規劃上,把信息處理技術做爲4項關鍵技術創新工程之一被提出來,其中包括了海量數據存儲、數據挖掘、圖像視頻智能分析,這都是大數據的重要組成部分。而另外3項關鍵技術創新工程,包括信息感知技術、信息傳輸技術信息安全技術,也都與「大數據」密切相關。

16投資熱點

編輯

大數據是繼雲計算、物聯網以後IT產業又一次顛覆性的技術變革。雲計算主要爲數據資產提供了保管、訪問的場所和渠道,而數據纔是真正有價值的資產。企業內部的經營交易信息、物聯網世界中的商品物流信息,互聯網世界中的人與人交互信息、位置信息等,其數量將遠遠超越現有企業IT架構和基礎設施的承載能力,實時性要求也將大大超越現有的計算能力。如何盤活這些數據資產,使其爲國家治理、企業決策乃至我的生活服務,是大數據的核心議題,也是雲計算內在的靈魂和必然的升級方向。

大數據時代網民和消費者的界限正在消弭,企業的疆界變得模糊,數據成爲核心的資產,並將深入影響企業的業務模式,甚至重構其文化和組織。所以,大數據對國家治理模式、對企業的決策、組織和業務流程、對我的生活方式都將產生巨大的影響。若是不能利用大數據更加貼近消費者、深入理解需求、高效分析信息並做出預判,全部傳統的產品公司都只能淪爲新型用戶平臺級公司的附庸,其衰落不是管理能扭轉的。

大數據時代將引起新一輪信息化投資和建設熱潮。據IDC預測,到2020年全球將總共擁有35ZB的數據量,而麥肯錫則預測將來大數據產品在三大行業的應用就將產生7千億美圓的潛在市場,將來中國大數據產品的潛在市場規模有望達到1.57萬億元,給IT行業開拓了一個新的黃金時代。

當前還處在大數據時代的前夜,預計今明兩年將是大數據市場的培育期,2014年之後大數據產品將會造成業績。

17專家觀點

編輯

大數據給城市帶來的重大變革宋清輝:大數據正改變咱們的將來

大數據時代,與其讓對你感興趣的人去搜尋你的隱私,就不如自曝隱私。當我在全球不一樣城市演講結束交換名片的時候,基本歷來不發載有本身名字、電話、地址等基本信息的名片,由於那根本用不着,也不符合大數據時代的精髓。因此個人名片簡單到只有一個名字和幾個二維碼,只要百度一下或者掃一掃二維碼,關於我的的信息別人就會盡收眼底,包括在寫什麼文章、在哪裏演講等信息……

不想說一我的若拒絕大數據就去失去生命這樣沉重的話題,但大數據確實在深入改變着你和個人將來。

18戰略資源

編輯

2015年5月26日,中共貴州省委副書記、省政府省長陳敏爾在峯會上透露,國家在制定大數據國家戰略及行動計劃。貴州省將抓住和用好戰略機遇,深刻挖掘大數據的商業價值、管理價值和社會價值。[2]

工信部信息服務到處長李琰在論壇期間則表示,工信部將抓緊研究制定大數據發展的指導性文件。下一步,工信部將和有關部門增強協同,積極營造良好的環境,推進應用和產業相互促進、良性發展,爲我國大數據產業和大數據創新發展探索積累經驗。

19數據類型

編輯

大數據時代來了!不得不認可現在數據量的激增愈來愈明顯,各類各樣的數據鋪天蓋地的砸下來,企業選擇相應工具來存儲、分析與處理它們。從Excel、BI工具,到如今最新的可視化數據分析工具大數據魔鏡,數據分析軟件進步愈來愈快,免費的大數據魔鏡已經能夠達到500多種可視化效果和實現數據共享。那麼在大數據時代中,都新出現了哪些數據類型呢?

1)過於一些記錄是以模擬形式方式存在的,或者以數據形式存在可是存貯在本地,不是公開數據資源,沒有開放給互聯網用戶,例如音樂、照片、視頻、監控錄像等影音資料。如今這些數據不但數據量巨大,而且共享到了互聯網上,面對全部互聯網用戶,其數量之大是史無前例。舉個例子,Facebook天天有18億張照片上傳或被傳播,造成了海量的數據。[3]

2)移動互聯網出現後,移動設備的不少傳感器收集了大量的用戶點擊行爲數據,已知IPHONE有3個傳感器,三星有6個傳感器。它們天天產生了大量的點擊數據,這些數據被某些公司全部擁有,造成用戶大量行爲數據。

3)電子地圖如高德、百度、Google地圖出現後,其產生了大量的數據流數據,這些數據不一樣於傳統數據,傳統數據表明一個屬性或一個度量值,可是這些地圖產生的流數據表明着一種行爲、一種習慣,這些流數據經頻率分析後會產生巨大的商業價值。基於地圖產生的數據流是一種新型的數據類型,在過去是不存在的。

4)進入了社交網絡的年代後,互聯網行爲主要由用戶參與創造,大量的互聯網用戶創造出海量的社交行爲數據,這些數據是過去不曾出現的。其揭示了人們行爲特色和生活習慣。

5)電商戶崛起產來了大量網上交易數據,包含支付數據,查詢行爲,物流運輸、購買喜愛,點擊順序,評價行爲等,其是信息流和資金流數據。

6)傳統的互聯網入口轉向搜索引擎以後,用戶的搜索行爲和提問行爲彙集了海量數據。單位存儲價格的降低也爲存儲這些數據提供了經濟上的可能。

上面咱們所指的大數據不一樣與過去傳統的數據,其產生方式、存儲載體、訪問方式、表現形式、來源特色等都同傳統數據不一樣。大數據更接近於某個羣體行爲數據,它是全面的數據、準確的數據、有價值的數據。這些新類型數據相信你們都很熟悉,它們已經比傳統數據類型更深刻地走進了咱們生活。

相關文章
相關標籤/搜索