摘要: 本文從基本概念、行業趨勢、學習途徑等幾個方面介紹了大數據的相關內容,適合對大數據感興趣的讀者做爲入門材料閱讀。web
隨着科技的發展,目前已經步入了大數據的時代,不少社交媒體和互聯網公司也很是關注大數據這一行業。那麼對於大數據而言,這裏有五件事情是你應該瞭解的。數據庫
簡單地說,大數據指的是經過計算分析大數據集,以揭示與數據某一方面相關的模式或趨勢。對於大數據而言,數據量沒有必定的要求,只要足夠得出可靠的結論便可。編程
M-brain從如下八個「V」方面說明大數據:網頁爬蟲
1.VOLUME:可以發現本身想要的信息嗎?安全
2.VALUE:當你最須要它的時候你能發現它嗎?機器學習
3.VERACITY:處理的是有用信息仍是虛假信息?編程語言
4.VISUALISATION:一眼就能看明白嗎?它能促進決定嗎?oop
5.VARIETY:一張圖比一千個詞更有價值嗎?得到的信息均衡嗎?學習
6.VELOCITY:從信息得到動力,危機和機遇同時存在,將來的前景會如何?大數據
7.VISCOSITY:是否受到困擾?須要採起進一步行動嗎?
8.VIRALITY:它是否傳達了一個能夠粘貼到演示文檔中的信息?
數據在現實生活中無處不在,並且隨着時間的推移會積累的愈來愈多。經過谷歌搜索就可使你幾乎可以找到全部的數據庫。不少人不知道那些已經存在的數據可供訪問和分析,若是你不知道的話,能夠在KD Nuggets網站上找到可供訪問和挖掘的數據列表。如何訪問和使用這些數據主要分爲如下六個方面:
數據提取
在進行任何事情以前,都須要使用一些數據。現實中能夠經過多種方式得到所須要的數據,但一般的作法是經過API調用公司的web服務得到相關數據。
數據存儲
大數據面臨的主要難題之一是如何存儲並管理它,這徹底取決於負責創建數據存儲的預算和我的具有的專業知識,由於對於大多數數據管理者來講,都須要具有一些編程方面的知識。良好設計的數據庫容許用戶安全地、直接地存儲和查詢數據。
數據清洗
無論你喜歡與否,數據集有各類各樣的形式和大小。在考慮如何存儲數據以前,須要確保它是乾淨的,且轉化成可以被接受的格式。
數據挖掘
數據挖掘是從數據庫中洞察一些信息的過程,這樣作的目的是根據當前持有的數據提供預測並做出決定。
數據分析
一旦收集了全部的數據後,就須要對其進行相關任務的分析、尋找有趣的模型或趨勢。優秀的數據分析師會發現一些不一樣尋常的東西或其餘人以前沒有發現的內容。
數據可視化
對於數據處理而言,對其最重要的多是數據可視化。可視化是在完成全部工做後輸出一個能被任何人理解的可視化載體,這能夠經過使用編程語言(如Plot.ly、d3.js)或軟件(如Tableau)實現。
隨着市場對大數據相關需求的增長,與之相關的職業需求數量也在上升。根據相關機構的統計研究,一個大數據工程師每一年的平均工資是150000美圓。
根據相關研究報道,超過80%的數據科學家有碩士學位,使得他們可以從事這個領域的任何工做。
簡而言之,大數據行業是一個正在快速成長的行業。不少公司和我的都對大數據很是關注,下圖是谷歌趨勢圖。從下圖中能夠看到,搜索詞「大數據」從2004年到如今的流行程度增加迅猛。
根據IDC提供的數據,「大數據和業務分析(BDA)」在2017年的全球收入達到150.8億美圓,比2016年同比增加12.4%。估計到2020年末,大數據的全球收入可能達到210億美圓。
大數據是一個寬泛的主題,所以所須要學習的內容涵蓋多方面的知識。想要從事該領域工做的人們須要具有一系列的特定技能,包括如下技能中的一個或多個:
1.掌握一種與數據分析有關的編程語言,好比R、Python、SAS和SQL語言等
2.對數學和統計學有很好的理解與掌握
3.具有網頁爬蟲經驗
4.基本的Excel技能
一些網站提供在線大數據課程,好比Coursera、Simpli Learn等。若是你正在尋找一個大學在線課程,能夠從Masters Portal列出的全英國95個數據科學和大數據碩士課程中選擇一個適合本身的課程,典型的教學大綱可能包括如下幾個方面:
1.與大數據相關的數學知識
2.Python腳本
3.大數據的商業和科學應用
4.大型數據庫和非關係型數據庫,包括MongoDb、Cassandra和Neo4j
5.數據分析、機器學習和使用Weka、R和Scikit-Learn可視化數據
6.大問題的優化和探索
7.使用Hadoop、Spark、Hive和MapReduce集羣計算
Dan Clark,卡迪夫大學學生,專一於Web開發、數據可視化。
文章原標題《5 Things You Need to Know about Big Data》,做者:Dan Clark
更爲詳細的內容,請查看原文