大數據對於數據分析師意味着什麼_數據分析師

大數據對於數據分析師意味着什麼_數據分析師

大數據從無人談及,到如今的大肆炒做,到底什麼纔是大數據,對於數據分析師,它有意味着什麼?本文將爲您解答。html

如下爲譯文:web

我用Google搜索了一下「Big Data」,獲得了19,600,000個結果……而使用一樣的詞語,在兩年前你幾乎搜索不到什麼內容,而如今大數據的內容被大肆炒做,內容多得讓人眼花繚亂。而這些內容主要是來自IBM、麥肯錫和O’Reilly ,大多數文章都是基於營銷目的的誇誇其談,對真實的狀況並不瞭解,有些觀點甚至是徹底錯誤的。我問本身…… 大數據之於數據分析師,它意味着什麼呢?算法

以下圖所示,谷歌趨勢顯示,與「網站分析」(web analytics)和」商業智能」(business intelligence)較爲平穩的搜索曲線相比,「大數據」(big data)的搜索量迎來了火箭式的大幅度增加。數據庫

大數據 – 炒做安全

Gartner把「大數據」的發展階段定位在「社交電視」和「移動機器人」之間,正向着中部指望的高峯點邁進,而如今是達到較爲成熟的階段前的二至五年。這種定位有着其合理性。各類奏唱着「大數據」頌歌的產品數量正在迅速增加,大衆媒體也進入了「大數據」主題的論辯中,好比紐約時報的「大數據的時代「,以及一系列在福布斯上發佈的題爲」 大數據技術評估檢查表「的文章。服務器

進步的一面體如今,大數據的概念正在促使內部組織的文化發生轉變,對過期的「商務智能」造成挑戰,並促進了「分析」意識的提高。cookie

基於大數據的創新技術能夠很容易地被應用到相似數據分析的各類環境中。值得一提的是,企業組織經過應用先進的業務分析,業務將變得更普遍、更復雜,價值也更高,而傳統的網站分析受到的關注將會有所減弱。網絡

大數據 – 定義數據結構

什麼是「大數據」,目前並無統一的定義。維基百科提供的定義有些拙劣,也不完整:「 大數據,指的是所涉及的數據量規模巨大到沒法經過主流的工具,在合理的時間內擷取、管理、處理、並整理成爲人們所能解讀的信息 「。併發

IBM 提供了一個充分的簡單易懂的概述:

大數據有如下三個特色:大批量(Volume)、高速度(Velocity)和多樣化(Variety) 。

大批量 – 大數據體積龐大。企業裏處處充斥着數據,信息動不動就達到了TB級,甚至是PB級。

高速度 – 大數據一般對時間敏感。爲了最大限度地發揮其業務價值,大數據必須及時使用起來。

多樣化 – 大數據超越告終構化數據,它包括全部種類的非結構化數據,如文本、音頻、視頻、點擊流、日誌文件等等均可以是大數據的組成部分。

MSDN的布萊恩·史密斯在IBM的基礎上增長了第四點:

變異性 – 數據可使用不一樣的定義方式來進行解釋。不一樣的問題須要不一樣的闡釋。

大數據 – 技術角度

大數據包括瞭如下幾個方面:數據採集、存儲、搜索、共享、分析和可視化,而這些步驟在商務智能中也能夠找到。在皮特·沃登的「 大數據詞彙表 「中,囊括了60種創新技術,並提供了相關的大數據技術概念的簡要概述。

獲取 :數據的獲取包括了各類數據源、內部或外部的、結構化或非結構化的數據。「大多數公共數據源的結構都不清晰,充滿了噪音,並且還很難得到。」 技術: Google Refine、Needlebase、ScraperWiki、BloomReach 。

序列化 :「你在努力把你的數據變成有用的東西,而這些數據會在不一樣的系統間傳遞,並可能存儲在不一樣節點的文件中。這些操做都須要某種序列化,由於數據處理的不一樣階段可能須要不一樣的語言和API。當你在處理很是大量的記錄時,該如何表示和存儲數據,你所作的選擇對你的存儲要求和性能將產生巨大影響。 技術: JSON、BSON、Thrift、Avro、Google Protocol Buffers 。

存儲 :「大規模的數據處理操做使用了全新的方式來訪問數據,而傳統的文件系統並不適用。它要求數據能即時大批量的讀取和寫入。效率優先,而那些有助於組織信息的易於用戶使用的目錄功能可能就顯得沒那麼重要。由於數據的規模巨大,這也意味着它須要被存儲在多臺分佈式計算機上。「 技術: Amazon S三、Hadoop分佈式文件系統 。

服務器 :「雲」是一個很是模糊的術語,咱們可能對它所表示的內容並不很瞭解,但目前在計算資源的可用性方面已有了真正突破性的發展。之前咱們都習慣於購買或長期租賃實體機器,而如今更常見的狀況是直接租用正運行着虛擬實例的計算機來做爲服務器。這樣供應商能夠以較爲經濟的價格爲用戶提供一些短時間的靈活的機器租賃服務,這對於不少數據處理應用程序來講這是再理想不過的事情。由於有了可以快速啓動的大型集羣,這樣使用很是小的預算處理很是大的數據問題就可能成爲現實。「 技術: Amazon EC二、Google App Engine、Amazon Elastic Beanstalk、Heroku 。

NoSQL :在IT行爲中,NoSQL(實際上意味着「不僅是SQL」)是一類普遍的數據庫管理系統,它與關係型數據庫管理系統(RDBMS)的傳統模型有着一些顯著不一樣,而最重要的是,它們並不使用SQL做爲其主要的查詢語言。這些數據存儲可能並不須要固定的表格模式,一般不支持鏈接操做,也可能沒法提供完整的ACID(原子性—Atomicity、一致性—Consistency、隔離性—Isolation、持久性—Durability)的保證,並且一般從水平方向擴展(即經過添加新的服務器以分攤工做量,而不是升級現有的服務器)。 技術: Apache Hadoop、Apache Casandra、MongoDB、Apache CouchDB、Redis、BigTable、HBase、Hypertable、Voldemort 。

MapReduce :「在傳統的關係數據庫的世界裏,在信息被加載到存儲器後,全部的數據處理工做才能開始,使用的是一門專用的基於高度結構化和優化過的數據結構的查詢語言。這種方法由Google獨創,並已被許多網絡公司所採用,建立一個讀取和寫入任意文件格式的管道,中間的結果橫跨多臺計算機進行計算,以文件的形式在不一樣的階段之間傳送。「 技術: Hadoop和Hive、Pig、Cascading、Cascalog、mrjob、Caffeine、S四、MapR、Acunu、Flume、Kafka、Azkaban、Oozie、Greenplum 。

處理 :「從數據的海洋中獲取你想要的簡潔而有價值的信息是一件挑戰性的事情,不過如今的數據系統已經有了長足的進步,這能夠幫助你把數據集到轉變成爲清晰而有意義的內容。在數據處理的過程當中你會趕上不少不一樣的障礙,你須要使用到的工具包括了快速統計分析系統以及一些支持性的助手程序。「 技術: R、Yahoo! Pipes、Mechanical Turk、Solr/ Lucene、ElasticSearch、Datameer、Bigsheets、Tinkerpop 。 初創公司: Continuuity、Wibidata、Platfora 。

天然語言處理 :「天然語言處理(NLP)……重點是利用好凌亂的、由人類創造的文本並提取有意義的信息。」 技術: 天然語言工具包Natural Language Toolkit、Apache OpenNLP、Boilerpipe、OpenCalais。

機器學習 :「機器學習系統根據數據做出自動化決策。系統利用訓練的信息來處理後續的數據點,自動生成相似於推薦或分組的輸出結果。當你想把一次性的數據分析轉化成生產服務的行爲,並且這些行爲在沒有監督的狀況下也能根據新的數據執行相似的動做,這些系統就顯得特別有用。亞馬遜的產品推薦功能就是這其中最著名的一項技術應用。「 技術: WEKA、Mahout、scikits.learn、SkyTree 。

可視化 :「要把數據的含義表達出來,一個最好的方法是從數據中提取出重要的組成部分,而後以圖形的方式呈現出來。這樣就可讓你們快速探索其中的規律而不是僅僅籠統的展現原始數值,並以此簡潔地向最終用戶展現易於理解的結果。隨着Web技術的發展,靜態圖像甚至交互式對象均可以用於數據可視化的工做中,展現和探索之間的界限已經模糊。「 技術: GraphViz、Processing、Protovis、Google Fusion Tables、Tableau 。

大數據 – 挑戰

最近舉行的世界經濟論壇也在討論大數據,會議肯定了一些大數據應用的機會,但在數據共用的道路上仍有兩個主要的問題和障礙。

1.隱私和安全

正如Craig & Ludloff在「隱私和大數據「的專題中所提到的,一個難以免的危機正在造成,大數據將瓦解並衝擊着咱們生活的不少方面,這些方面包括私隱權、政府或國際法規、隱私權的安全性和商業化、市場營銷和廣告……

試想一下歐盟的cookie法規,或是這樣的一個簡單情景,一個公司能夠輕易地在社交網絡上收集各類信息並創建完整的資料檔案,這其中包括了人們詳細的電子郵箱地址、姓名、地理位置、興趣等等。這真是一件嚇人的事情!

2.人力資本

麥肯錫全球研究所的報告顯示 ,美國的數據人才的缺口很是大,還將須要140,000到190,000個有着「深度分析」專業技能的工做人員和1.500個精通數據的經理。

尋找熟練的「網站分析」人力資源是一個挑戰,另外,要培養本身的真正擁有分析技能的人員,須要學習的內容不少,這無疑是另外一個大挑戰。

大數據 – 價值創造

不少大數據的內容都說起了價值創造、競爭優點和生產率的提升。要利用大數據創造價值,主要有如下六種方式。

透明度 :讓利益相關人員均可以及時快速訪問數據。

實驗 :啓用實驗以發現需求,展現不一樣的變體並提高效果。隨着愈來愈多的交易數據以數字形式存儲,企業能夠收集更準確、更詳細的績效數據。

細分 :更精細的種羣細分,能夠帶來不一樣的自定義行爲。

決策支持 :使用自動化算法替換/支持人類決策,這能夠改善決策,減小風險,併發掘被隱藏的但有價值的看法。

創新 :大數據有助於企業創造出新的產品和服務,或提高現有的產品和服務,發明新的商業模式或完善原來的商業模式。

工業領域的增加 :有了足夠的和通過適當培訓的人力資源,那些重要的成果纔會成爲現實併產生價值。

數據分析的機會領域

當「網站分析」發展到「數據智能「,毫無疑問,數據分析人員也工做也應該發生一些轉變,過去的工做主要是以網站爲中心並制定渠道的具體戰術,而在未來則須要負責更具戰略性的、面向業務和(大)數據專業知識的工做。

數據分析師的主要關注點不該該是較低層的基礎設施和工具開發。如下幾點是數據分析的機會領域:

處理 :掌握正確的工具以即可以在不一樣條件下(不一樣的數據集、不一樣的業務環境等)進行高效的分析。目前網站分析專家們最經常使用的工具無疑是各種網站分析工具,大多數人並不熟悉商業智能和統計分析工具如Tableau、SAS、Cognos等的使用。擁有這些工具的專業技能將對數據分析人員的發展大有好處。

NLP:學習非結構化數據分析的專業技能,好比社交媒體、呼叫中心日誌和郵件的數據多爲非結構化數據。從數據處理的角度來看,在這個行業中咱們的目標應該是肯定和掌握一些最合適的分析方法和工具,不管是社會化媒體情感分析仍是一些更復雜的平臺。

可視化 :掌握儀表板的展現技能,或者寬泛點來講,掌握數據可視化的技術是擺在數據分析師面前一個明顯的機會(注:不要把數據可視化與如今網絡營銷中經常使用的「信息圖」infographics相混淆)。

行動計劃

在大數時代,其中一個最大的挑戰將是知足需求和技術資源的供給。當前的「網站分析」的基礎廣泛並不足夠成熟以支持真正的大數據的使用,填補技能差距,愈來愈多的「網站分析師」將成長爲「數據分析師」。http://www.cda.cn/view/1302.html

相關文章
相關標籤/搜索