玩轉大數據,你須要瞭解這8種項目類型!

【編者按】本文做者爲大數據諮詢公司 Mammoth Data 的創始人 Andrew Oliver,主要介紹適宜應用大數據的8大項目類型。文章系國內 ITOM 管理平臺 OneAPM 編譯呈現,如下爲正文。html

在過去的 12 個月裏,筆者一直在大數據的戰壕裏挖掘。好吧,其實大部分時間我只是坐在比我更聰明的人旁邊,看他們怎麼在戰壕裏挖掘數據,再把所作的事情進行簡化以上報給管理層。前端

不多有真正獨具一格的 IT 項目,那些聽起來比較特別的項目最終也只是大同小異。不過大家今天有眼福了,由於我決定出來冒個泡兒,跟你們分享一下過去 12 個月裏接觸到的8大項目類型。java

一、探索交易週期

那些作電子商務的公司想固然地認爲,裝幾個工具就能掌握網頁訪客從銷售到付款的成交狀況。可是不少公司處理的數據集遠遠不止網頁成交率,並且這些數據集主要來自經銷商。數據庫

每一個經銷商提供格式各異的不一樣數據集。固然,從根本上說,這是一個帶有BI/可視化前端的核心ETL/數據整合項目。可是,對許多公司而言,要真正瞭解交易的生命週期(從開始、進展到結束)比想象中要困難。你須要整合大量的 CRM 數據、網站分析數據和財務數據,最後才能確定地說:「是的,PPC(點擊付費廣告)帶來了交易,可是40%的客戶連第一筆交易都未能成功走到付款,那麼……」安全

二、挖掘潛在客戶

不少公司都想知道你在作什麼,而後再根據你的活動狀況向你推銷產品。例如,你手機上可能裝了一個提供遙測數據的 app,這樣公司就會知道你在商場的哪一個位置。憑藉這些大數據,他們就能預測你在任意時刻的購買需求。服務器

三、衡量營銷效果

營銷人員作事講求效益,他們想知道具體要作哪些事情,以及這些事情對KPI有何影響。從本質上說,這又是一個 BI 項目,並且每每涉及到大量的變動數據捕獲(CDC)和 ETL 數據整合工做。他們測量的實際KPI變化很大,有時還涉及到 Kylin 或 Greenplum 等工具中的數據庫。至於其餘狀況,可能屬於下一個類別——社交媒體。網絡

四、測量社交媒體熱度

一般,公衆會在公開或半公開的社交網絡上談論你(或你的公司)。在這些地方你能夠獲取不少有用的信息,好比你們怎麼看待你的品牌,你的營銷活動是否有成效。既然美國地震勘探局能夠經過 Twitter 探測到地震和震級,那麼你也能夠經過這樣的平臺瞭解剛推出的廣告活動效果如何。隨着愈來愈多的專業社交平臺出現,對於某些垂直行業而言,其數據採集範圍遠遠不止 Twitter 和 Facebook。app

五、專攻日誌文件

不管是爲了入侵檢測仍是應對安全審計,你都須要捕獲並收集日誌文件並使其可檢索。在這一領域,Splunk 無疑大賺了一筆。固然,在大數據中還有其餘更靈活的選擇。框架

六、由於不想買Teradata!

如今已經不是 Teradata 獨統天下的時代了,大數據正在從邊緣向核心發展,並且 Apache Kylin 的數據庫已對全部人開放。得益於 Impala、HAWQ 和 Greenplum,MPP 分佈式系統的地位也更加劇要。那些價格昂貴、功能單一併且還不能兼容其餘數據分析的工具,其發展空間愈來愈小——更別說是那些只能依靠某單一供應商的私有云。分佈式

七、經久不衰的ETL

ETL (Extract-Transform-Load)可能依舊是現在最多見的Hadoop工做負載——並且我敢說,ETL 是適用於 Spark 的最多見的非流式工做負載。順便提一下,如今已經有上百個創業公司冒出來講本身可以處理這種任務了。

八、先捕獲傳感器數據再想辦法處理

不論是電網、製造業、水泵,仍是老司機開的車,都在向咱們傳遞信息。這些信息都須要捕獲。甚至有些人已經弄清了該如何處理這些數據。可是,及時捕獲數據纔是最重要的一步,由於不少人都以爲從技術上來講捕獲數據並不那麼容易。

此外,筆者還常常督促你們在大數據項目初期就要考慮數據分析問題。爲何呢?由於預先設計並肯定好數據流的大小,遠比數據已經準備好時再從新考慮總體佈局要容易得多。可是有時候仍是得細細咀嚼,作最好的打算。

近一年來,筆者見過很多其餘項目類型,可是大多數用例都屬於以上八種之一。不知各位老司機是否還有補充?

OneAPM 能爲您提供端到端的 Java 應用性能解決方案,咱們支持全部常見的 Java 框架及應用服務器,助您快速發現系統瓶頸,定位異常根本緣由。分鐘級部署,即刻體驗,Java 監控歷來沒有如此簡單。想閱讀更多技術文章,請訪問 OneAPM 官方技術博客

本文轉自 OneAPM 官方博客

相關文章
相關標籤/搜索