上海Spark Meetup第六次聚會將於2015年8月29日在上海市楊浦雲計算創新基地發展有限公司舉辦。數據庫
本次聚會由Intel舉辦。服務器
摘要:
在愈來愈多的大數據應用場景諸如機器學習,數據分析等, 內存成爲保證和提高性能的關鍵. Tachyon正是之內存爲中心而構建的可容錯的分佈式存儲系統, Tachyon全局管理和調度服務器集羣的內存資源並經過lineage來實現內存數據丟失的容錯. 經過Tachyon, 不一樣的計算平臺如Hadoop MapReduce, Spark能夠充分利用內存的速度優點來存取數據, 並沒有縫實現數據的共享.
Tachyon項目誕生於UC Berkeley AMPLab的研究項目並迅速開源. 在僅僅兩年多的時間裏. Tachyon項目取得了飛速的成長. 系統被超過50家公司部署並應用. 目前社區裏有100名以上的開發者, 來自超過30家不一樣的學校, 機構和公司(包括Baidu, IBM, Intel, Yahoo等).網絡
嘉賓簡介:
範斌博士就任於Tachyon Nexus, 是目前Tachyon開源項目的核心開發者之一. 加入Tachyon Nexus以前範斌曾於谷歌工做, 從事下一代大規模分佈式存儲系統的研究與開發, 並所以得到谷歌Technical Infrastructure Award. 範斌曾在卡耐基梅隴大學(Carnegie Mellon University)攻讀並得到計算機博士學位, 有多篇學術論文發表在SIGCOMM, SOSP, NSDI等網絡和分佈式系統方向的頂級計算機學術會議.數據結構
摘要:分享咱們使用Spark在金融行業的一些應用場景,以及咱們和Spark對接的關鍵技術包括NoSQL數據庫和Spark結合的方式與意義,而且結合咱們在一家金融企業中歷史數據平臺項目的場景來展開討論。架構
嘉賓簡介:王濤,SequoiaDB巨杉數據庫聯合創始人,他曾就任於IBM多倫多實驗室IBM TorontoLab(DB2 UDB Development Lab), 曾經是DB2領域的專家,做爲IBM DB2全球最高技術專家小組的成員,參與IBM下一代大數據平臺的架構規劃,精通數據庫內核及體系結構。在IBM多倫多實驗室工做八年後,王濤選擇回國創業。目前擔任巨杉數據庫CTO及總架構師,成功研發了國內惟一一款開源新一代分佈式數據庫——SequoiaDB(巨杉數據庫)。做爲公司創始人之一,王濤參與公司發展戰略規劃,負責整個數據庫研發項目的管理,包括數據庫系統的構建,管理公司的總體核心技術,組織制定和實施重大技術決策和技術方案等。目前,公司產品已經開源,客戶遍及互聯網、金融、電信等各大行業。機器學習
摘要:DataFrame是Spark自1.3.0起爲結構化數據分析加入的新API。DataFrame API簡單易用,並且讓用戶能夠充分利用Catalyst模塊爲執行計劃進行優化,高效地進行數據分析。同時,對於常規操做,經過DataFrame API用戶能夠利用Spark核心引擎的一些專有數據結構進一步提升性能表現。本報告將討論DataFrame API背後的技術細節與常見的使用方式。分佈式
嘉賓簡介:王道遠,英特爾亞太研發有限公司大數據團隊軟件工程師,Hive/Spark開源項目貢獻者,目前專一於Spark SQL模塊開發。在進入Spark社區前,他主要負責爲IDH中的Hive開發SQL92支持。同時仍是《Spark快速大數據分析》一書譯者。oop
日程表:
1. 13:00 -13:30 checkin
2. 13:30 - 13:40 Opening
3. 13:40 - 14:30 TachyonNexus 範斌 Tachyon: 內存爲中心可容錯的分佈式存儲系統
4. 14:30 - 15:20 SequoiaDB巨杉數據庫 王濤 Spark與SequoiaDB聯手打造互聯網金融大數據平臺
5. 15:20 - 15:40 茶歇
6. 15:40 - 16:30 Intel 王道遠 Spark DataFrames: 更高效的結構化數據分析
7. 17:00 end 性能
地圖與交通訊息
上海市楊浦區偉德路6號雲海大廈13樓 (上海市楊浦雲計算創新基地發展有限公司)。
學習