參加2013中國大數據技術大會(BDTC2013)

2013年12月5日-6日參加了爲期兩天的2013中國大數據技術大會(Big Data Technology Conference, BDTC2013),本期會議主題是:「應用驅動的架構與技術 」。大數據概念最近真是火得不行,從大會多達7個的「大數據架構與系統」、「大數據技術」、「大數據應用」、「大數據研究與發展」、「大數據基準測試」「智能交通與大數據」以及「傳統行業如何駕馭大數據」主題論壇,再到現場爆棚的人羣,可見你們擁抱大數據的高漲熱情。安全

DSC00103

在9月份讀完了一本《大數據時代》,後面又聽大學老師介紹了一次Hadoop的HDFS以及MapReduce,就敢修改了一篇勘探大數據立項報告。當看了Hadoop生態系統的框架圖後,直接被一堆代號搞得暈頭轉向,慢慢地只明白了其中幾個簡單意思,隨便一個系統就能龐大得把你淹死,大數據,膽小者慎入!架構

clip_image002

大數據白皮書與發展趨勢

5號會議以主席致辭和院士講話開始。框架

立刻就是程學旗發佈《大數據白皮書》,聽說這本書立刻就會在CSDN免費發佈,內容包括:大數據的發展背景、典型的業務大數據、大數據技術體系、大數據產業鏈與生態環境、大數據人才培養以及大數據發展趨勢等。機器學習

程學旗報告的後半部分重點介紹了大數據的10大發展趨勢,網上有一篇報道發得挺快的講了這個內容。ide

clip_image004

1. 大數據從概念化走向價值化oop

2. 大數據處理架構的多樣化模式並存性能

3. 大數據安全與隱私愈來愈重要學習

4. 大數據分析與可視化成爲熱點測試

5. 大數據產業成爲戰略性產業大數據

6. 數據的商品化和數據共享的聯盟化

7. 基於大數據推薦和預測正逐步流行

8. 大數據性能成爲支撐性的技術

9. 數據科學的興起

10. 大數據生態環境逐步完善

BDAS

在大數據創新大賽頒獎以後,是一篇主題演講Taming Big Data with Berkeley Data Analytics Stack(BDAS),這裏介紹一個Hadoop以外的一個大數據分析框架,試驗室的名稱叫AMPLab(來自於Algorithms, Machines, Person)。

BDAS的目標:

clip_image006

騰訊的報告:大數據處理的規模化與實時化演進

雲計算是挖掘大數據價值的核心基礎這張片子介紹傳統處理方式與大數據處理的對比。

clip_image008

後面講到了RCFile和ORCFile(Optimized Row Columnar)數據的存儲格式,還不瞭解。

 

The Stae of Apache HBase

下午吃完飯後直接犯困,有2個演講人的聲音幾乎沒有什麼起伏,一會就要睡過去。其中有一篇講互聯網金融的,我也不感興趣。

只是大概聽了一個老外介紹The Stae of Apache HBase,下圖中被人頭擋住的部分是HDFS。

clip_image010

 

 

6號的會議我一直在大數據技術主題論壇裏呆着。

 

百度:基於大數據的硬盤故障預測

 

DSC00191

從HDFS裏學了一個三副本概念,這裏才知道還有各類糾刪碼的方案,有一個重要評價指標叫MTTDL(Mean Time To Data Loss平均無數據丟失時長?)。

DSC00193

浙大:機器學習與大數據

何曉飛教授從人臉識別講到機器學習,先介紹了機器學習的發展歷程。

DSC00211

大數據時代的機器學習如今都在朝着深度學習和在線學習攻關。

DSC00213

後面介紹了最近鄰搜索中的哈希索引等技術問題。

 

大數據時代可視化和可視分析的機遇與挑戰

報告從The Top 10 Challenges in Extreme-Scale Visual Analytics這篇論文引出了北大在可視化方面的工做。

下圖給出了經過出租車GPS數據來分析北京交通狀況。

DSC00256

還講到一個多維數據拼圖系統。http://vis.pku.edu.cn/mddv/val/sketch#CarData

DSC00290

 

這篇大數據可視化的報告有PDF在CSDN上能夠下載

 

Extending MPI to Big Data Computing: Challenges and Benefits of DataMPI

這篇報告中探討了如何讓MPI改造爲大數據時代的並行計算,之前有大量MPI並行代碼能夠看看這篇文章。

相關文章
相關標籤/搜索