Spark和Mesos的誕生之地,又在研究什麼新技術?

你們對加州大學伯克利分校的AMPLab可能不太熟悉,可是它的項目咱們都有所耳聞——沒錯,它就是Spark和Mesos的誕生之地。小數又那裏據說了新的工具,一塊兒來圍觀最前沿的技術吧!html

加州大學伯克利分校電子工程和計算機學院的助理教授Joseph E. Gonzalez向咱們介紹了該校實驗室研究的最新狀況。算法

AMPLab是加州大學伯克利分校一個爲期五年的計算機研究計劃,其初衷是爲了理解機器和人如何合做處理和解決數據中的問題——使用數據去訓練更加豐富的模型,有效的數據清理,以及進行可衡量的數據擴展。spring

AMPLab於去年11月份結束關閉。新的實驗室就此開啓——RISELab,另外一個該校五年期項目,有着強力的財政支持,將聚焦於提供安全執行的實時人工智能系統。編程

RISELab的團隊任務是前瞻性地推進大數據分析到一個更加深刻的世界,在那個世界,AI是真實的,世界是可編程的。舉個例子:圍繞着「小型自主飛行器」管理數據設備,不管是無人機仍是氣墊汽車,都是數據在被高速且安全地處理着。安全

其餘的挑戰還包括安全領域,但不是傳統意義上的訪問控制。固然也包括相似 "homomorphic" encryption的概念,加密數據能夠直接被使用不須要解碼。「若是沒有對雲的理解,咱們如何預測雲上的數據?」 Gonzalez如是說。機器學習

儘管實驗室還處於初期階段,一些項目已經浮如今人們面前:工具

Clipper

機器學習包括兩項基本的工做:根據預測創建模型以及從模型提供預測。Clipper專一於後者,是一個多用途、低延遲的預測服務系統,根據機器學習framework以最低的延遲進行預測。性能

Clipper在機器學習方面主要有三個目的:其一,加速從被訓模型中獲取預測的速度。其二,在多個機器學習framework上提供一個抽象層,開發者只須要編程一個API便可。其三,Clipper的設計讓它能夠動態地響應,如單個模型響應請求。舉例來講,容許一個給定模型對特定類型的問題進行優先級的回覆。目前尚未明確的機制,但已經是將來的趨勢。學習

Opaque

目前看來RISELab的項目會補足AMPLab餘下的工做。Opaque就是其中之一:Opaque和Apache Spark SQL一塊兒爲DataFrame提供強力的安全保障。它使用Intel SGX處理器的擴展部分,把DataFrame標記爲加密,全部的操做都在"SGX enclave"下執行,數據就地使用AES算法加密,只有經過硬件層保護的應用使用它時纔可見。大數據

沒有性能損耗的狀況下,它提供了同態加密(homomorphic encryption)的優點。使用SGX的性能損耗大概在50%,可是當前最快的同態算法實現起來也要比它慢2000倍。另外一方面,SGX的處理器在雲上還未提供,儘管Gonzalez表示近期將會實現。最大的障礙在於,爲了讓它可以工做,「你必須相信Intel」。

Ground

Ground是一個數據湖(data lake)context管理系統。它提供了在Java中實現一個RESTful服務的機制,讓用戶去推論他們擁有什麼數據,數據從哪裏來向哪裏去,誰在使用數據,數據什麼時候變化,爲何會有這種變化等。

數據聚合(data aggregation)已經從嚴格的數據倉庫型管理中移除,向開放且靈活的數據湖接近,可是也讓追蹤數據造成變得很難。在某些方面,弄清楚誰改變了給定數據集以及如何改變,比了解數據自己更重要。Ground提供了一個通用API和追蹤信息的元模型,能夠和不少數據儲存庫一塊兒工做。

Gonzalez認可定義RISELab的目標並不容易,可是他表示,「它的核心在於從如何創建高級分析模型、如何分析數據到如何利用洞察來作出決定的轉型過渡——將Spark和大規模分析的產品與世界鏈接」。

做者:Serdar Yegulalp

文章來源:http://www.infoworld.com/arti...

相關文章
相關標籤/搜索