徐宗本院士講座《關於大數據研究下的若干問題》摘記

時間 2019-11-12

標籤院士講座關於大數據研究下的若干問題摘記简体版

原文原文鏈接

今天早上屁顛屁顛地跑去聽了徐宗本院士的：關於大數據研究的若個問題以爲還不錯，因爲徐教授橫跨數學與管理兩方面，因此講的角度還有深度剛恰好算法

在個人接受範圍內。講座主要從下面三個方面來說的：網絡

1 關於大數據的認識分佈式

2 大數據研究涉及的科學問題post

3 他們團隊的探索大數據

（一）關於大數據的認識優化

大數據炒得很火，可是什麼是大數據，跟海量數據有什麼區別？徐教授首先從本身的角度給出大數據的定義，主要有四個特色：搜索引擎

a 不能在單個計算機上集中存儲，通常須要用到分佈式/雲計算模式等；google

b 難以在可接受的時間內進行分析處理；雲計算

c 單個數據可能價值不大，可是數據總體仍是有高價值的（好比一個班級你們發的微博可能沒有特別大的意義，可是全國高校大學生髮的微博就能夠反映當代大學生思想理念**）設計

d 海量的複雜結構的數據集

對於大數據，他以爲不能按什麼GB,TB,PB,EB這些量化來死衡量。

大數據這個概念最近炒得很火，主要是從2008年《Science》雜誌用了幾版作了大數據專題開始。奧巴馬在2011年給出的報告《大數據分析》，競選通常都喜歡對什麼人說什麼話，其實就是精確化營銷。奧巴馬的競選主要得意於背後的數據分析團隊，他們收集各個州post出來的微博，進行輿情分析，得出各個州分別最關心的是什麼問題，而後在競選的時候就針對這些問題提出相應的口號和策略。繼而歐洲等國也把大數據研究做爲重要的發展戰略。隨之愈來愈火，企業，我的，如今好像全部人都在談論大數據。

大數據影響力不只在天然科學研究中，並且在商業領域，徐教授以爲後面會成爲企業核心競爭力（數據規模，活性（有沒有用，便是不是活的）與解釋力），以及發展與大數據相關的商業模式。這是將來高科技公司必須有的概念。還有在公共政策上，徐教授以爲大數據的火一個很重要的貢獻就是給決策者，政策修改者帶來的觀念上的衝擊，即數據資產，主權的概念，如今不只是海陸空主權了，數據已經滲透到咱們天天的平常生活，早在十幾年前，美國就能精確摧毀南斯拉夫大使館，考的就是數據。咱們如今用的google GPS，更是精確到一顆沙子，若是不注重數據主權，一個國家的主權也會受到侵犯。從這個角度來說，google搜索退出中國，百度開始壟斷中國搜索引擎市場，其實也是國家對數據主權的覺醒。徐宗本還呼籲你們多多使用百度，呵呵。（想到了斯諾登的事情。騰訊帝國。。）

那麼大數據值得熱嗎？

gartner報告中-—— 2012年，正在或是即將進行大數據的公司爲58%，而進入2013年，這一數字變成了64%。對於大多數企業來講，他們最大的問題，就是不明白大數據到底是什麼，以及如何使用大數據。

如今不少企業都在炒大數據，發展了大數據技術，其實本質上來講只是一種口號上的宣傳。目前大數據研究還在初始階段。

總的來講，徐教授以爲大數據仍是值得熱，

(1 數據概念重視；

2 數據挖掘方法獲得普世的重視。（數據挖掘主要方法：聚類分析判別分析迴歸分析(一個因素如何隨着另一個因素而改變）隱變量分析因果分析時間序列分析）

可是不能一哄而上。他擔憂中國人作不少事情都很喜歡一哄而上，繼而一鬨而散。

從數據到價值的產業鏈管理學院前沿計劃：大數據產業管理（產業鏈，商業模式，公共政策等）

（二）大數據研究涉及的科學問題

a 超高維問題即決策因素隨着樣本數n呈現更高量級引發的解的不肯定性與經典統計推斷失效問題。

經典統計：n>>p,高維：p》》n，大數據高維度p=o(exp(n)) n->00

熱點研究：稀疏建模（儘管變量不少，可是不少都是0）