徐宗本院士講座《關於大數據研究下的若干問題》摘記

今天早上屁顛屁顛地跑去聽了徐宗本院士的:關於大數據研究的若個問題 以爲還不錯,因爲徐教授橫跨數學與管理兩方面,因此講的角度還有深度剛恰好算法

在個人接受範圍內。講座主要從下面三個方面來說的:網絡

1 關於大數據的認識分佈式

2 大數據研究涉及的科學問題post

3 他們團隊的探索大數據

(一)關於大數據的認識優化

大數據炒得很火,可是什麼是大數據,跟海量數據有什麼區別? 徐教授首先從本身的角度給出大數據的定義,主要有四個特色:搜索引擎

a 不能在單個計算機上集中存儲,通常須要用到分佈式/雲計算模式等;google

b 難以在可接受的時間內進行分析處理;雲計算

c 單個數據可能價值不大,可是數據總體仍是有高價值的(好比一個班級你們發的微博可能沒有特別大的意義,可是全國高校大學生髮的微博就能夠反映當代大學生思想理念**)設計

d 海量的複雜結構的數據集

對於大數據,他以爲不能按什麼GB,TB,PB,EB這些量化來死衡量。

大數據這個概念最近炒得很火,主要是從2008年《Science》雜誌用了幾版作了大數據專題開始。奧巴馬在2011年給出的報告《大數據分析》,競選通常都喜歡對什麼人說什麼話,其實就是精確化營銷。奧巴馬的競選主要得意於背後的數據分析團隊,他們收集各個州post出來的微博,進行輿情分析,得出各個州分別最關心的是什麼問題,而後在競選的時候就針對這些問題提出相應的口號和策略。 繼而歐洲等國也把大數據研究做爲重要的發展戰略。隨之愈來愈火,企業,我的,如今好像全部人都在談論大數據。

大數據影響力不只在天然科學研究中,並且在商業領域,徐教授以爲後面會成爲企業核心競爭力(數據規模,活性(有沒有用,便是不是活的)與解釋力),以及發展與大數據相關的商業模式。這是將來高科技公司必須有的概念。 還有在公共政策上,徐教授以爲大數據的火一個很重要的貢獻就是給決策者,政策修改者帶來的觀念上的衝擊,即數據資產,主權的概念,如今不只是海陸空主權了,數據已經滲透到咱們天天的平常生活,早在十幾年前,美國就能精確摧毀南斯拉夫大使館,考的就是數據。咱們如今用的google GPS,更是精確到一顆沙子,若是不注重數據主權,一個國家的主權也會受到侵犯。從這個角度來說,google搜索退出中國,百度開始壟斷中國搜索引擎市場,其實也是國家對數據主權的覺醒。徐宗本還呼籲你們多多使用百度,呵呵。(想到了斯諾登的事情。騰訊帝國。。)

那麼 大數據值得熱嗎?

gartner報告中-—— 2012年,正在或是即將進行大數據的公司爲58%,而進入2013年,這一數字變成了64%。對於大多數企業來講,他們最大的問題,就是不明白大數據到底是什麼,以及如何使用大數據。

如今不少企業都在炒大數據,發展了大數據技術,其實本質上來講只是一種口號上的宣傳。目前大數據研究還在初始階段。

總的來講,徐教授以爲大數據仍是值得熱,

(1 數據概念重視;

2 數據挖掘方法獲得普世的重視。(數據挖掘主要方法: 聚類分析 判別分析 迴歸分析(一個因素如何隨着另一個因素而改變) 隱變量分析 因果分析 時間序列分析)

可是不能一哄而上。他擔憂中國人作不少事情都很喜歡一哄而上,繼而一鬨而散。

從數據到價值的產業鏈 管理學院前沿計劃:大數據產業管理(產業鏈,商業模式,公共政策等)

(二) 大數據研究涉及的科學問題

a 超高維問題 即決策因素隨着樣本數n呈現更高量級引發的解的不肯定性與經典統計推斷失效問題。

經典統計:n>>p,高維:p》》n,大數據高維度p=o(exp(n)) n->00

熱點研究:稀疏建模(儘管變量不少,可是不少都是0)

好比南海,雖然監控很大,可是艦隊只是很小的一部分。 基本科學問題: 如何補足信息使得數據可解; 利用特徵相關性發展統計學(變量之間的獨立性基本都是不能成立的)

b 大數據的重採樣 subsampling

the big data boostrap,kleiner et.al 2012,ICML(大數據下如何求均值,頗有創新) 

基本問題:

如何重採樣以刻畫數據總體特徵

基於試驗設計的重採樣

基於目標信息的重採樣

聯合處理:boosting ,bagging 等 如今的高分辨率(p維度大),同時雷達不能攜帶過多的樣本數據,即n小。

c 可解的計算理論

大數據可解與傳統數據不一樣,算法中的可解性是指在有限步內能夠用圖靈機解決的問題。

大數據下的可解, 具體例子(針對具體形式的數據):

流數據(容易是指處理的速度大於數據更新的速度)

分佈式數據(容易是指交互的速度大於處理的速度)

d 分佈式實時計算

基本問題:

問題的解分解性與解的可組裝性

隨機優化模型可能成爲未來一個趨勢。(對於大數據而言,精確解並不過重要,實時性更重要。讓我想起3D in the wild重構)

e 非結構化問題

挑戰:數據的異構性,不一致性

基本問題:

異構數據的表示與分析 (向量-》矩陣-》張量(如今廣泛應用))

f 可視分析

基本問題:

1 高維數據的特徵提取;

2 特徵如何用幾何展現

crowdsourcing(講到如今公司不知道什麼方面,向公衆徵集,再加上一點小獎勵,利用羣體智慧)

(三) 咱們的探索

a 超高維的稀疏建模

 迴歸分析(大數據-》均勻抽樣(subsampling)-》迴歸-》聯合處理,成功

網絡監測(失敗,由於處理的速度慢於更新的速度)模擬美國城市的交通監測 決策,好比若是處理速度快了,能夠加快城市交通監測的更新速度。

b 視覺認知

基於尺度空間的數據建模(聚類)

聚類看上去像5類,有的又說是4類,到底是幾類呢?模擬人腦視覺認知。 引入尺度空間的概念,sigma 爲尺度,表示物體與視網膜距離或晶狀體曲率。 在必定的尺度範圍內,是5類,過了這個範圍,在另外一個範圍內就是四類。 他們的團隊引進了生存壽命,生命週期最長的一個類定義爲最有價值的類。 談到meanshift

c 全局優化有用嗎? f(x)極小值雖然不必定是全局最優,可是他的吸引域夠大就能夠了。類比藥的結構及藥效的穩定性在東南亞,廣州。

(粗略的筆記,後面找時間完善)

相關文章
相關標籤/搜索