今天早上屁顛屁顛地跑去聽了徐宗本院士的:關於大數據研究的若個問題 以爲還不錯,因爲徐教授橫跨數學與管理兩方面,因此講的角度還有深度剛恰好算法
在個人接受範圍內。講座主要從下面三個方面來說的:網絡
1 關於大數據的認識分佈式
2 大數據研究涉及的科學問題post
3 他們團隊的探索大數據
(一)關於大數據的認識優化
大數據炒得很火,可是什麼是大數據,跟海量數據有什麼區別? 徐教授首先從本身的角度給出大數據的定義,主要有四個特色:搜索引擎
a 不能在單個計算機上集中存儲,通常須要用到分佈式/雲計算模式等;google
b 難以在可接受的時間內進行分析處理;雲計算
c 單個數據可能價值不大,可是數據總體仍是有高價值的(好比一個班級你們發的微博可能沒有特別大的意義,可是全國高校大學生髮的微博就能夠反映當代大學生思想理念**)設計
d 海量的複雜結構的數據集
對於大數據,他以爲不能按什麼GB,TB,PB,EB這些量化來死衡量。
大數據這個概念最近炒得很火,主要是從2008年《Science》雜誌用了幾版作了大數據專題開始。奧巴馬在2011年給出的報告《大數據分析》,競選通常都喜歡對什麼人說什麼話,其實就是精確化營銷。奧巴馬的競選主要得意於背後的數據分析團隊,他們收集各個州post出來的微博,進行輿情分析,得出各個州分別最關心的是什麼問題,而後在競選的時候就針對這些問題提出相應的口號和策略。 繼而歐洲等國也把大數據研究做爲重要的發展戰略。隨之愈來愈火,企業,我的,如今好像全部人都在談論大數據。
大數據影響力不只在天然科學研究中,並且在商業領域,徐教授以爲後面會成爲企業核心競爭力(數據規模,活性(有沒有用,便是不是活的)與解釋力),以及發展與大數據相關的商業模式。這是將來高科技公司必須有的概念。 還有在公共政策上,徐教授以爲大數據的火一個很重要的貢獻就是給決策者,政策修改者帶來的觀念上的衝擊,即數據資產,主權的概念,如今不只是海陸空主權了,數據已經滲透到咱們天天的平常生活,早在十幾年前,美國就能精確摧毀南斯拉夫大使館,考的就是數據。咱們如今用的google GPS,更是精確到一顆沙子,若是不注重數據主權,一個國家的主權也會受到侵犯。從這個角度來說,google搜索退出中國,百度開始壟斷中國搜索引擎市場,其實也是國家對數據主權的覺醒。徐宗本還呼籲你們多多使用百度,呵呵。(想到了斯諾登的事情。騰訊帝國。。)
那麼 大數據值得熱嗎?
gartner報告中-—— 2012年,正在或是即將進行大數據的公司爲58%,而進入2013年,這一數字變成了64%。對於大多數企業來講,他們最大的問題,就是不明白大數據到底是什麼,以及如何使用大數據。
如今不少企業都在炒大數據,發展了大數據技術,其實本質上來講只是一種口號上的宣傳。目前大數據研究還在初始階段。
總的來講,徐教授以爲大數據仍是值得熱,
(1 數據概念重視;
2 數據挖掘方法獲得普世的重視。(數據挖掘主要方法: 聚類分析 判別分析 迴歸分析(一個因素如何隨着另一個因素而改變) 隱變量分析 因果分析 時間序列分析)
可是不能一哄而上。他擔憂中國人作不少事情都很喜歡一哄而上,繼而一鬨而散。
從數據到價值的產業鏈 管理學院前沿計劃:大數據產業管理(產業鏈,商業模式,公共政策等)
(二) 大數據研究涉及的科學問題
a 超高維問題 即決策因素隨着樣本數n呈現更高量級引發的解的不肯定性與經典統計推斷失效問題。
經典統計:n>>p,高維:p》》n,大數據高維度p=o(exp(n)) n->00
熱點研究:稀疏建模(儘管變量不少,可是不少都是0)
好比南海,雖然監控很大,可是艦隊只是很小的一部分。 基本科學問題: 如何補足信息使得數據可解; 利用特徵相關性發展統計學(變量之間的獨立性基本都是不能成立的)
b 大數據的重採樣 subsampling
the big data boostrap,kleiner et.al 2012,ICML(大數據下如何求均值,頗有創新)
基本問題:
如何重採樣以刻畫數據總體特徵
基於試驗設計的重採樣
基於目標信息的重採樣
聯合處理:boosting ,bagging 等 如今的高分辨率(p維度大),同時雷達不能攜帶過多的樣本數據,即n小。
c 可解的計算理論
大數據可解與傳統數據不一樣,算法中的可解性是指在有限步內能夠用圖靈機解決的問題。
大數據下的可解, 具體例子(針對具體形式的數據):
流數據(容易是指處理的速度大於數據更新的速度)
分佈式數據(容易是指交互的速度大於處理的速度)
d 分佈式實時計算
基本問題:
問題的解分解性與解的可組裝性
隨機優化模型可能成爲未來一個趨勢。(對於大數據而言,精確解並不過重要,實時性更重要。讓我想起3D in the wild重構)
e 非結構化問題
挑戰:數據的異構性,不一致性
基本問題:
異構數據的表示與分析 (向量-》矩陣-》張量(如今廣泛應用))
f 可視分析
基本問題:
1 高維數據的特徵提取;
2 特徵如何用幾何展現
crowdsourcing(講到如今公司不知道什麼方面,向公衆徵集,再加上一點小獎勵,利用羣體智慧)
(三) 咱們的探索
a 超高維的稀疏建模
迴歸分析(大數據-》均勻抽樣(subsampling)-》迴歸-》聯合處理,成功
網絡監測(失敗,由於處理的速度慢於更新的速度)模擬美國城市的交通監測 決策,好比若是處理速度快了,能夠加快城市交通監測的更新速度。
b 視覺認知
基於尺度空間的數據建模(聚類)
聚類看上去像5類,有的又說是4類,到底是幾類呢?模擬人腦視覺認知。 引入尺度空間的概念,sigma 爲尺度,表示物體與視網膜距離或晶狀體曲率。 在必定的尺度範圍內,是5類,過了這個範圍,在另外一個範圍內就是四類。 他們的團隊引進了生存壽命,生命週期最長的一個類定義爲最有價值的類。 談到meanshift
c 全局優化有用嗎? f(x)極小值雖然不必定是全局最優,可是他的吸引域夠大就能夠了。類比藥的結構及藥效的穩定性在東南亞,廣州。
(粗略的筆記,後面找時間完善)