Intuit數據工程副主管Loconzolo雙腳都已經邁進數據湖裏了。Smarter Remarketer首席數據科學家DeanAbbott也爲雲技術的發展指出了捷徑。他們二人一致認爲, 大數據與分析學前沿是個活動目標,這一領域包含了儲存原始數據的數據湖和雲計算。儘管這些技術並未成熟,但等待也並不是上策。算法
Loconzolo表示:「現實的狀況是,這些工具都剛剛興起,他們構築的平臺還不足以讓企業依賴。可是,大數據和分析學等學科發展十分迅速,所以企業必須努力跟上,不然就有被甩掉的危險。」他還說:「過去,新興技術每每須要十年左右的時間纔可以成熟,可是如今大大不一樣了,人們幾個月甚至幾周時間就能想出解決方案。」那麼,有哪些新興技術是咱們應該關注,或者說科研人員正在重點研究的呢?《電腦世界》採訪了一些IT精英、諮詢師和行業分析專家,來看看他們列出的幾大趨勢吧。數據庫
在這裏仍是要推薦下我本身建的大數據學習交流羣:784557197,羣裏都是學大數據開發的,若是你正在學習大數據 ,小編歡迎你加入,你們都是軟件開發黨,不按期分享乾貨(只有大數據軟件開發相關的),包括我本身整理的一份2018最新的大數據進階資料和高級開發教程,歡迎進階中和進想深刻大數據的小夥伴加入。安全
Hadoop是一組有必定框架結構的工具,用來處理大型數據組。它本來用於機器羣,但如今狀況有所變化。Forrester Research一位分析師BrianHopkins表示,如今有愈來愈多的技術能夠運用到雲端數據處理上來了。好比亞馬遜的BI數據庫、Google的 BigQuery數據分析服務,、IBM’sBluemix 雲平臺和亞馬遜的Kinesis數據處理服務。這位分析師還說,將來的大數據將是內部數據部署與雲端數據的結合體。網絡
Smarter Remarketer是SaaS零售分析、市場細分和營銷服務的供應商,它最近將本身室內的Hadoop和MongoDB數據庫基礎設施轉移到了一個基於雲技術的數據庫—Amazon Redshift. 這家位於印第安納波利斯的公司收集線上和實體銷售數據、顧客信息和實時行爲數據,以後進行分析,從而幫助零售商作出針對消費者的決策,有些決策甚至是實時的。框架
Abbott表示,Redshift能夠節省這家公司的成本,這是由於它對於結構數據擁有強大的彙總報告功能,並且它頗具規模,使用起來相對容易。用這些虛擬設備老是要比那些實體設備便宜一些。機器學習
相比之下,位於加州山景城的Intuit在走向雲分析的過程當中就要謹慎多了,由於它須要一個安全、穩定、可控的環境。目前爲止,這家金融軟件公司的數據都還在自家的數據庫—Intuit Analytics Cloud裏面。Loconzolo表示:「目前咱們正跟亞馬遜還有Cloudera合做,創建一個咱們幾家公司公用的能跨越虛擬、現實兩個世界的、具備高度穩定性的雲端,可是如今這個問題尚未獲得解決。」然而,能夠說,對於像Intuit這種銷售雲端產品的公司來講,向雲端技術進軍是必然的。Loconzolo還說道,將來咱們會發展到一個階段,那時把數據放在私有云端將是浪費的。分佈式
Hopkins表示,向MapReduce這樣的分佈式分析框架,正在逐漸演化成分佈式資源管理器,這些資源管理器正逐步將Hadoop變爲多用途數據運行系統。「有了這些系統,你就能夠進行多種多樣的操做和分析。」工具
這對企業來講意味着什麼呢?SQL、MapReduce、in-memory、流水式處理、圖表分析還有其它工做都能在Hadoop上進行,愈來愈多的企業會把Hadoop當作企業數據中心。Hopkins還說:「在Hadoop上能進行各類各樣的數據處理工做,這樣的話,Hadoop會慢慢變成一個多用途的數據處理系統。」oop
Intuit已經開始在Hadoop創建本身的數據基地了。Loconzolo說:「咱們的策略是利用Hadoop分佈式文件系統,由於它和MapReduce與Hadoop等聯繫十分密切,這樣的話,人與產品之間的各類互動就能夠實現了。性能
美國普華永道首席技術專家Chris Curran說,傳統數據庫理論認爲,人們應該先設計數據集,而後再將數據輸入進去。而「數據湖泊「,也被稱做「企業數據湖泊」或者「企業數據中心」,顛覆了這個理念。「如今,咱們先收集數據,而後把它們都存入Hadoop倉庫裏,咱們沒必要事先設計數據模型了。」這個數據湖泊不只爲人們提供了分析數據的工具,並且很明確地告訴你,這裏有什麼樣的數據。Curran還表示,運用Hadoop的過程當中人們就能夠增長對數據的認識。這是一個遞增的、有機的大規模數據庫。固然,這樣一來,對使用者的技術要求相應地會比較高。
Loconzolo表示,Intuit擁有本身的數據湖泊,這個數據湖裏既有用戶點擊量的數據,也有企業和第三方的數據,全部這些都是Intuit分析雲端的一部分,但關鍵是要讓圍繞這個數據湖的工具可以爲人們有效利用起來。Loconzolo還說,對於在Hadoop創建數據湖,一個須要考慮的問題是,這個平臺並無完徹底全的爲企業的需求設置周全。「咱們還須要傳統企業數據庫已經有了幾十年的一些功能,好比監控訪問控制、加密、安全性以及可以從源頭到去向地追蹤數據等等。
Hopkins表示,有了大數據,分析師們不只有了更多的數據能夠利用,也擁有了更強大的處理打量不一樣屬性數據的能力。
他說:「傳統的機器學習利用的數據分析是創建在一個大數據集中的一個樣本基礎上的,而如今,咱們擁有了處理了大量數字記錄的能力,甚至於每條數據有多種不一樣屬性,咱們都應對自如。」
大數據與計算功能的結合也讓分析師們可以挖掘人們一天中的行爲數據,比如他們訪問的網站或者是去過的地方。Hopkins把這些數據稱做「稀少數據(sparsedata)」,由於要想獲得這些你感興趣的數據,必須過濾掉一大堆無關的數據。「要想用傳統機器算法對抗這種數據,從計算角度來說幾乎不可能。由於計算能力是一個十分重要的問題,特別是如今傳統算法的速度和記憶儲存能力退化很快。而如今你能夠很容易知道哪些數據是最容易分析的,不得不說,賽場易主了。」
Loconzolo表示:「咱們最感興趣的地方是,怎樣在同一個Hadoop內核中既能做實時分析,又能作預測模型。這裏最大的問題在於速度。Hadoop花費的時間要比現有技術長20倍,因此Intuit也在嘗試另外一個大規模數據處理器Apache Spark及其配套的 Spark SQL查詢工具。Loconzolo說:「Spark具備快速查詢、製表服務和分組功能。它能在把數據保留在Hadoop內部的前提下,還將數據處理得十分出色。」
Gartner一位分析師表示,若是你是個不錯的編碼員或者數學家,你能夠把數據丟進Hadoop,想作什麼分析就作什麼分析,這是好處,但同時這也是個問題。「儘管任何程序語言都行得通,但我須要有人把這些數據用我熟悉的形式或者語言輸入進去,這也是爲何咱們須要Hadoop的結構化查詢語言。支持與SQR相似的查詢語言的工具,讓那些懂得SQR的企業使用者們能把相似的技術運用在數據上。Hopkins認爲,Hadoop的SQR打開了企業通往Hadoop的大門,由於有了SQR,企業不須要在那些能使用Java, JavaScript 和Python高端數據和商業分析師上投資了,而這些投資在之前但是少不了的一筆開銷。
這些工具也並不是最近纔出現的了。Apache Hive曾經爲用戶提供了一種適用於Hadoop、相似於SQR的查詢語言,可是競爭對手Cloudera、PivotalSoftware、IBM還有其餘銷售商提供的產品不只性能更好,速度也更快。這項技術也適合「迭代分析(iterative analytics)」,也就是說,分析師先問一個問題,獲得回答以後再問下一個問題。而這種工做放在過去但是須要創建一個數據庫的。Hopkins說:「Hadoop的SQR並非爲了取代數據庫,最起碼短時間不會,但對於某些分析來講,它讓咱們知道,除了那些高成本的軟件和應用以外,還有別的選擇。」
Curran表示,如今咱們除了基於SQR的傳統的數據庫以外,還有NoSQL,這個數據庫能用於特定目的的分析,當下十分熱門,並且估計會愈來愈受歡迎。他粗略估計目前大概有15-20個相似的開放資源NoSQL,每個都獨具特點。好比ArangoDB,這是一款具有圖標分析功能的產品,能更快、更直接地分析顧客與銷售人員之間的關係網。
Curran還說,開放資源的NoSQL數據庫已經存在一段時間了,可是他們依然勢頭不減,由於人們須要它們所作的分析。一位在某個新興市場的普華永道客戶把傳感器按在了店面櫃檯上,這樣就能監控到那裏到底有什麼產品,顧客會擺弄這些產品多長時間以及人們會在櫃檯前站多久。「傳感器會產生大量相似指數增加的數據,NoSQL將是將來的一個發展方向,由於它能夠針對特定目的進行數據分析,性能好,並且很輕巧。」
Hopkins認爲,做爲一種基於神經網絡的機械學習技術,雖然還在發展過程當中,但在解決問題方面卻已經表現出巨大的潛力。「深度學習……可以讓計算機在大量非結構化和二進制的數據中識別出有用信息,並且它可以在不須要特殊模型和程序指令的前提下就剔除那些沒必要要的關係。」
舉個例子說明:一個深度學習的算法經過維基百科瞭解到加利福尼亞和德克薩斯是美國的兩個州。「咱們不在須要經過模式化讓程序去理解州和國家的概念,這就是原來的機械學習和新興深度學習的區別之一。」
Hopkins還說道:「大數據運用先進的分析技術,例如深度分析,來處理各類各樣的非結構文本,這些處理問題的思路和方式,咱們也是如今纔開始理解。」好比,深度學習能夠用來識別各類各樣不一樣的數據,好比形狀、顏色和錄像中的物體,甚至是圖片中的貓—谷歌創建的神經網絡就作到了這一點。「這項技術所昭示的認知理念、先進的分析,將是將來的一個趨勢。」
Beyer表示,利用內存中數據庫來提高分析處理速度,這種方式已經愈來愈普遍,並且只要運用得當,益處也不少。事實上,不少企業如今已經在利用HTAP(hybridtransaction/analytical processing)了,這種處理方式能在同一個內存數據庫中進行轉換和分析處理。但Beyer同時也表示,對於HTAP的宣傳有些過頭了,不少公司也過分利用這項技術。對於那些使用者須要天天屢次以一樣的方式看一樣數據的系統來講,這樣的數據沒有太大變化,這時用內存中分析就是一種浪費了。
雖然有了HTAP的幫助,人們分析速度更快了,可是,全部的轉換都必須儲存在同一個數據庫裏。Beyer認爲,這樣的特色就產生了一個問題,分析師們目前的工做主要是把不一樣地方的數據彙總輸入到同一個數據庫當中去。「若是你想作任何分析都運用HTAP,全部的數據就得存在同一個地方。要把多樣化的數據進行整合。」
然而,引入內存數據庫的同時也意味着,還有另外一個產品等着咱們去管理、維護、整合與權衡。
對於Intuit而言,他們已經在使用Spark了,因此對引進內存數據庫的願望並無那麼強烈。Loconzolo說:「若是咱們用Spark就能處理70%的問題,而用內存數據庫能夠解決100%,那麼咱們還會選擇前者。因此咱們如今也在權衡,要不要立刻停用內部的內存數據系統。」
大步向前邁
在大數據和分析領域有這麼多的新興趨勢,IT組織應該創造條件,讓分析師和數據專家們大顯身手。Curran認爲:「咱們須要評估、整合一些技術,從而把它們運用到商業領域中去。」
Beyer則認爲:「IT管理者和執行者們不能把技術不成熟做爲中止試驗的藉口。」最初只有一部分專業分析師和數據專家須要試驗,而後這些比較高級的使用者和IT行業應該共同決定是否要把這些新的資源介紹給行業其餘人。IT界也不必控制那些鼓足幹勁的分析師們,相反,Beyer認爲應該與他們增強合做。