在咱們身處的時代,數據無處不在。據IBM公司估算,人類天天產生約25萬ZB的數據,這意味着世界上90%數據都是過去的兩年中產生的。Gartner公司分析報告顯示,在2015年財富500強的公司中百分之八十五的企業沒法利用大數據來獲取競爭優點。html
數據無處不在數據庫
在咱們身處的時代,數據無處不在。據IBM公司估算,人類天天產生約2.5萬ZB的數據,這意味着世界上90%數據都是過去的兩年中產生的。Gartner公司分析報告顯示,在2015年財富500強的公司中百分之八十五的企業沒法利用大數據來獲取競爭優點。api
到2020年,全世界將有上百萬大數據相關的就業機會產生。這些龐大的數據蘊藏了寶貴財富,企業可使用最早進的分析技術,利用這些數據更好地瞭解客戶的行爲,識別商業機會,制定運營戰略。安全
讓咱們舉幾個例子,金融機構天天經過信用評分模型,瞭解他們的客戶在將來12個月內每種信貸產品(抵押貸款、信用卡、分期貸款)上的信用。他們以該信用評分爲基礎來進行壞賬準備,計算巴塞爾協議II/III規定所需資本金數量,或是制定營銷方案(例如根據信用評分調整信用卡額度)。jsp
電信運營商使用最近通話行爲數據創建流失模型,估計客戶在將來一到三個月流失的可能性。運營商會根據模型得分來制定營銷活動,避免有價值的客戶流失。Facebook和Twitter會使用社交媒體分析技術進行內容分析和情感語義分析,以便更好地瞭解品牌認知度,進一步調整產品服務設計。工具
亞馬遜和Netflix等在線零售商不斷地分析顧客的購買行爲,以決定產品捆綁銷售策略,並利用推薦系統爲客戶下一次購買推薦產品。信用卡公司使用欺詐檢測模型,檢測付款是否具備欺騙性,是否發生了信用卡盜刷。政府採用數據分析技術來預測逃稅行爲,優化公共預算分配,分析交通數據提升公共交通效率,分析預測恐怖襲擊保障國家安全。oop
化數據爲價值性能
數據是任何分析模型成功的基礎。當啓動分析項目時,有必要詳細列出企業內全部可用於分析的數據。這裏的原則就是數據越多越好!由於不少分析模型都能自動決定哪些數據對當前分析很重要,哪些數據能夠排除在下一步分析以外。學習
咱們的研究不斷印證了這樣一個觀點:改善分析模型最好的辦法,就是投資於你的數據!這能夠經過數量和質量兩個維度的提高來完成。對於前者,一個關鍵點是如何整合結構化數據(例如關係數據庫)和非結構化數據(如文本),提供全方位綜合視角進行客戶行爲分析,另外一個關鍵點則是在線數據和離線數據的整合,不少企業爲這個問題所困擾。測試
此外企業還能夠超越其內部邊界,考慮從外部數據供應商那裏購買外部數據,以彌補其內部數據的不足。大量的研究代表採用外部數據,對比較和完善分析模型很是有用。雖然數據經常體量巨大,可是數據質量常常是一個痛點。GIGO(garbage in garbage out)的原則在這裏很是適用,爛數據只會生成爛模型。
聽起來顯而易見,然而實踐中數據質量每每成爲許多分析項目的「阿喀琉斯之踵」。數據質量能夠分解成不少維度:準確性、完整性、新近度、一致性等。在大數據分析中,企業必須專門制定數據質量管理方案,設立數據審覈員、數據管家或數據質量經理等職位,持續監測數據質量。
數據分析應該從商業問題開始,而不是從具體的技術解決方案開始。可是這帶有一絲「雞生蛋,蛋生雞」的意味。要解決商業問題、識別商業機會,須要對潛在的技術解決方案有了解。以社交媒體分析爲例,只有首先了解分析技術後,公司才能開始思考如何利用它們研究在線品牌認知度,進行趨勢監測。爲了跨越分析技術和業務之間的鴻溝,持續性培訓和學習是關鍵,它能使企業始終屹立在分析技術的潮頭,保持競爭優點。在這一點上,學術界應該深入反省,由於現有的不少大數據分析(或數據科學)碩士課程沒法知足上述的要求。
將數據轉化爲洞察力和提高價值的另外一個關鍵點是分析模型的驗證。分析模型須要適當的機制和工具來進行審覈和驗證,愈來愈多的公司將分析團隊拆分紅模型開發和模型驗證兩個團隊。良好的公司治理可以在兩個團隊之間築起一道防火牆,使得由前一小組開發的模型能夠客觀和獨立地被後者團隊評估。
公司甚至能夠考慮由外部合做夥伴進行模型驗證。經過創建分析基礎信息設施,公司可以不斷基於現有情況對模型進行評估和驗證,提高分析模型性能,抓住更多目標客戶。
數據分析每每不是一蹴而就的事情。事實上,當分析模型投入使用時就已通過時了!分析模型老是落後於現實,咱們能作的只是保持這種滯後性儘量小。分析模型所使用的數據,都是在一個特定的時間點和特定的內外部環境條件下采集獲得的。
這一特定環境不是靜態的,而是隨着內部因素(如新戰略,不斷變化的客戶行爲)和外部因素(新宏觀經濟環境和法律法規)不斷變化而變化。例如,欺詐檢測分析中,欺詐者老是試圖不斷逃避模型的偵測,以騙取更多的錢財。另外一個例子是信用評分模型在很大程度上依賴於當前的宏觀經濟情況(復甦或是衰退)。所以,分析模型要取得成功創造價值,就必須對內外部環境進行監測,以及時調整或重建模型。
構建底層基礎
爲了創建一個分析環境,企業須要就所採納的硬件和軟件技術進行選擇。
硬件方面,須要專門的基礎設施(如Hadoop和相關的軟件棧)來清理、整合、存儲和管理數據。爲了減小支出,企業可能選擇雲存儲,並將大數據做爲一種服務。公司在同外部進行數據傳輸和交換時,應採起適當的謹慎措施,保證數據私密性。
軟件方面,不少廠商提供了大數據分析的商業解決方案。目前市場還有不少的開源分析軟件(R、weka、Rapidminer),雖然這些開源軟件解決方案變得很是流行,可是他們還不夠成熟,還不足以很好的處理具備大致量、多樣性等特性的大數據。
大數據分析成爲愈來愈多公司的DNA 組成部分,可是政府、金融、醫藥,每一個行業都有本身發展足跡,數據、業務和監管都具備特異性,須要針對不一樣的基因組成進行不一樣的設置。所以企業須要的是能提供綜合全面垂直業務解決方案的軟件,而不是一個跨行業的橫向通用軟件。
鑑於創建數據分析構架環境的複雜性,公司可能會考慮外包。然而,公司內部數據及其蘊藏的信息是公司最寶貴的戰略資產,所以不宜讓第三方徹底擁有數據訪問權。相反,企業應該創建內部分析中心和培養公司人員的分析技能,以服務公司普遍的分析需求,這是公司在管理中應該考慮的問題。
一樣公司董事會和高級管理人員都應該參與到分析環境構建中。不少企業還嘗試設立首席分析官(CAO)這樣的職位,專門負責創建企業範圍內的分析環境和基礎設施,管理各業務單位分析模型的研發、審覈及部署。
最後一點,咱們如今看到愈來愈多的中小型企業開始藉助大數據分析。這些公司一般預算有限,所以它們比較中意那些現成的能夠直接用於數據分析的現成軟件解決方案。好比利用在線分析工具來研究網站的使用現狀,優化網站設置、改善網站在搜索引擎排名,併購買付費引擎營銷方案。
總結與展望
在文章的結尾之處,咱們想再次重申企業進行大數據分析所必須注意的幾個問題:
從公司管理的角度來看:
(1)公司應同時關注數據體量和數據質量;
(2)持續學習和培訓能填平新分析技術和新商機之間的鴻溝;
(3)分析開發團隊應該包括獨立的模型開發團隊和模型驗證團隊;
(4)分析並不只僅是模型開發和驗證,還包括模型的監測和回溯測試。
從技術的角度企業應該:
(1)考慮使用雲服務來進行大數據分析;
(2)應該關注垂直式行業解決方案,謹慎選擇開源軟件;
(3)對待外包分析要慎之又慎,最好能在企業內部創建分析環境,並置於高層的管理之下。
截止時間:2016年11月30日
更多大數據與分析相關行業資訊、解決方案、案例、教程等請點擊查看>>>
詳情請諮詢在線客服!
客服熱線:023-66090381