《大數據時代》讀書筆記(一)

做者:維克托 邁爾——舍恩伯格
序言
  • 世界的本質就是數據,大數據將開啓一次重大的時代轉型;
  • 大數據發展的核心動力來源於人類測量、記錄和分析世界的渴望
  • 從因果關係到相關關係的思惟變革纔是大數據的關鍵,創建在相關關係分析法基礎上的預測纔是大數據的核心
推薦序一 擁抱 擁抱「大數據時代 大數據時代」
  • 發掘數據價值、征服數據海洋的「動力」就是雲計算。
  • 以雲計算爲基礎的信息存儲、分享和挖掘手段,能夠便宜、有效地將這些大量、高速、多變化的終端數據存儲下,並隨時進行分析與計算。
  • 數據正成爲巨大的經濟資產,成爲新世紀的礦產與石油,將帶來全新的創業方向、商業模式和投資機會。
  • 「大數據」發展的障礙,在於數據的「流動性」和「可獲取性」。
推薦序二 實實在在大數據
  • 維克托指出,大數據時代的來臨令人類第一次有機會和條件,在很是多的領域和很是深刻的層次得到和使用全面數據、完整數據和系統數據,深刻探索現實世界的規律,獲取過去不可能獲取的知識,獲得過去沒法企及的商機。
譯者序 譯者序
在路上 在路上·晃晃悠悠
  • 我相信做者在書中的一個重要觀點,就是大數據時代,要容許一點點的錯誤和不完美,由於效率可能更加劇要!
  • 做者拋出了大數據時代處理數據理念上的三大轉變:要全體不要抽樣,要效率不要絕對精確,要相關不要因果;接着,從萬事萬物數據化和數據交叉複用的巨大價值兩個方面,講述驅動大數據戰車在材質和智力方面向前滾動的最根本動力;最後,做者冷靜描繪了大數據帝國前夜的脆弱和不安,包括產業生態環境、數據安全隱私、信息公正公開等問題。
  • 這本書好在三個地方:
    一是觀點擲地有聲,絕非主流媒體上若干討論的簡單彙總和平均,更不是一個宏大概念面
    前曖昧的叫好聲。讀者可能對其中一些觀點並不認同,可是讀完以後不可能一個都記不住。
    二是觀念高屋建瓴,做者試圖從不少實例和經驗,包括歷史事件中萃取出普適性的觀念,
    而不只僅是適用於幾個特定狀況的案例分析。
    三是例子豐富翔實,不長的篇幅包括了上百個學術和商業的實例。
引言 一場生活、工做與思惟的大變革
  • 大數據開啓了一次重大的時代轉型。就像望遠鏡讓咱們可以感覺宇宙,顯微鏡讓咱們可以觀測微生物同樣,大數據正在改變咱們的生活以及理解世界的方式,成爲新發明和新服務的源泉,而更多的改變正蓄勢待發……
大數據,變革公共衛生
  • 在甲型H1N1流感爆發的幾周前,互聯網巨頭谷歌公司的工程師們在《天然》雜誌上發表了
    一篇引人注目的論文。它令公共衛生官員們和計算機科學家們感到震驚。文中解釋了谷歌爲什
    麼可以預測冬季流感的傳播:不只是全美範圍的傳播,並且能夠具體到特定的地區和州。谷歌
    經過觀察人們在網上的搜索記錄來完成這個預測,而這種方法之前一直是被忽略的。谷歌保存
    了多年來全部的搜索記錄,並且天天都會收到來自全球超過30億條的搜索指令,如此龐大的數
    據資源足以支撐和幫助它完成這項工做。
  • 2009年甲型H1N1流感爆發的時候,與習慣性滯後的官方數據相比,谷歌成爲了一個
    更有效、更及時的指示標。公共衛生機構的官員得到了很是有價值的數據信息。驚人的是,谷
    歌公司的方法甚至不須要分發口腔試紙和聯繫醫生——它是創建在大數據的基礎之上的。這是
    當今社會所獨有的一種新型能力:以一種史無前例的方式,經過對海量數據進行分析,得到 以一種史無前例的方式,經過對海量數據進行分析,得到
    有巨大價值的產品和服務,或深入的洞見。 有巨大價值的產品和服務,或深入的洞見。

大數據,變革商業
  • 2003年,奧倫·埃齊奧尼(Oren  Etzioni)準備乘坐從西雅圖到洛杉磯的飛機去參加弟弟的婚
    。他知道飛機票越早預訂越便宜,因而他在這個大喜日子來臨以前的幾個月,就在網上預訂
    一張去洛杉磯的機票。在飛機上,埃齊奧尼好奇地問鄰座的乘客花了多少錢購買機票。當得
    雖然那我的的機票比他買得更晚,可是票價卻比他便宜得多時,他感到很是氣憤。因而,他
    詢問了另外幾個乘客,結果發現你們買的票竟然都比他的便宜。
  • 埃齊奧尼表示,他不須要去解開機票價格差別的奧祕。他要作的僅僅是預測當前的機票價
    格在將來一段時間內會上漲仍是降低。這個想法是可行的,但操做起來並非那麼簡單。這個
    系統須要分析全部特定航線機票的銷售價格並肯定票價與提早購買天數的關係。
  • 這個系統爲了保障自身的透明度,會把對機票價格走勢預測的可信度標示出來,供消費者
    參考。系統的運轉須要海量數據的支持。爲了提升預測的準確性,埃齊奧尼找到了一個行業機
    票預訂數據庫。而系統的預測結果是根據美國商業航空產業中,每一條航線上每一架飛機內的
    每個座位一年內的綜合票價記錄而得出的。現在,Farecast已經擁有驚人的約2000億條飛行數
    據記錄。利用這種方法,Farecast爲消費者節省了一大筆錢。


大數據、變革思惟
  • 數據再也不認爲數據時靜止和陳舊的
  • 數據已經成爲一種商業資本,一項重要的經濟投入,能夠創造新的經濟效益
  • 信息總量的變化還致使了信息形態的變化——量變引發質變
  • 大數據是人們在大規模數據的基礎上能夠作到的事情,而這些事情在小規模數據的基礎上是沒法完成的。
  • 大數據是人們得到新的認知、創造新的價值的源泉:大數據仍是改變市場、組織機構、以及政府與公民關係的方法
  • 社會須要放棄它對因果關係的渴望,而僅僅須要關注相關關係

大數據,開啓重大的時代轉型
  • 真正的革命並不在於分析數據的機器,而在於數據自己和咱們如何運用數據
  • 人類存儲信息量的增加速度比世界經濟的增加速度快4倍,而計算機數據處理能力的增加速度則比世界經濟的增加熟讀快9倍
  • 大數據也同樣,量變致使質變
  • 大數據的科學價值和社會價值正是體如今這裏。一方面,對大數據的掌握程度能夠轉化爲經濟價值的來源。另外一方面,大數據已經撼動了世界的方方面面,從商業科技到醫療、政府、教育、經濟、人文以及社會的其餘各個領域。

預測,大數據的核心
  • 大數據的核心就是預測
  • 在不久的未來,世界許多限制單純依靠人類判斷力的領域都會被計算機系統所改變甚至取代。

大數據,大挑戰
  • 第一個轉變就是,在大數據時代,咱們能夠分析更多的數據,有時候甚至能夠處理和某個特別現象相關的全部數據,而再也不依賴隨機採樣。
  • 第二個改變就是,研究數據如此之多,以致於咱們再也不熱衷於追求精確度。
  • 第三個轉變因前兩個轉變而促成,即咱們再也不熱衷於尋早因果關係。
    • 大數據告訴咱們「是什麼」而不是「爲何」。
    • 沒必要知道現象背後的緣由,咱們只要讓數據本身發聲
  • 模擬時代的數據收集和分析極其耗時耗力,新問題的出現一般要求咱們從新收集和分析數據。數字化的到來使得數據管理效率又向前邁出了重要的一步。數字化將模擬數據轉換成計算
    機能夠讀取的數字數據,使得存儲和處理這些數據變得既便宜又容易,從而大大提升了數據管理效率。過去須要幾年時間才能完成的數據蒐集,如今只要幾天就能完成。可是,光有改變還
    遠遠不夠。數據分析者太沉浸於模擬數據時代的設想,即數據庫只有單一的用途和價值,而正是咱們使用的技術和方法加深了這種偏見。雖然數字化是促成向大數據轉變的重要緣由,但僅有計算機的存在卻不足以實現大數據
  • 數據化意味着咱們要從一切太陽底下的事物中汲取信息,,甚至包括不少咱們之前認爲和很咱們之前認爲和「信息 信息」根本搭不上邊的事情。比方說,一我的所在的位置、引擎的振動、橋樑的承重等。咱們要經過量化的方法把這些內容轉化爲數據。這就使得咱們能夠嘗試許多之前沒法作到的事情,
  • 大數據時代開啓了一場尋寶遊戲,而人們對於數據的見解以及對由因果關係向相關關係轉變時釋放出的潛在價值的態度,正是主宰這場遊戲的關鍵
  • 每一個數據集內部都隱藏着某些未被髮掘的價值
  • 20世紀,價值已經從實體基建轉變爲無形財產,從土地和工廠轉變爲品牌和產權。
  • 電腦存儲和分析數據的方法取代電腦硬件成爲了價值的源泉
  • 在一個可能性和相關性占主導地位的世界裏,專業性變得不那麼重要了。
  • 對咱們而言,危險再也不是隱私的泄漏,而是被預知的可能性

第一部分 大數據時代的思惟變革
一、更多:不是隨機樣本,而是全體數據
穿孔卡片與美國人口普查
大數據與喬布斯癌症治療
Xoom與跨境匯款異常交易警報
巴拉巴西與第一次全社會層面的網絡分析
  • 讓數據「發聲」
    • 「大數據」全在於發現和理解信息內容及信息與信息之間的關係
    • 三個重要思惟的轉變
      • 首先,要分析與某事物相關的全部數據,而不是依靠少許的數據樣本
      • 其次,咱們樂於接受數據的紛繁複雜,而再也不追求精確性
      • 最後,咱們的思想發生了轉變,再也不探求難以捉摸的因果關係,轉而關注事物的相關關係
  • 小數據時代的隨機採樣,最少的數據得到最多的信息
    • 採樣分析的精確性隨着採樣隨機性的增長而大幅提升,但與樣本數量的增長關係不大
    • 當樣本數量達到了某個值以後,咱們重新個體身上獲得的信息會愈來愈少,就如同經濟學中的邊際效應遞減同樣
    • 認爲樣本選擇的隨機性比樣本數量更重要,這種觀點是很是有見地的
    • 隨機採樣取得了巨大的成功,成爲現代社會、現代測量領域的主心骨。但這只是一條捷徑,是在不可收集和分析全部數據的狀況下的選擇,它自己存在許多固有的缺陷。
    • 只研究樣本而不是總體,有利有弊:能更快更容易地發現問題,但不能回答實現未考慮到的問題
  • 全數據模式,樣本=整體
    • 採樣的目的就是用最少的數據獲得最多的信息。
    • 生活中真正有趣的事情常常藏匿在細節之中,而採樣分析法卻沒法捕捉到這些細節
    • 大數據是指不用隨機分析法這樣的捷徑,而 大數據是指不用隨機分析法這樣的捷徑,而採用全部數據的方法。
    • 大數據是創建在掌握全部數據,至少是儘量多的數據的基礎上的。
    • 固然,有些時候,咱們仍是可使用樣本分析法,畢竟咱們仍然活在一個資源有限的時
      代。
     
二、更雜:不是精確性,而是混雜性
                    微軟與語料庫數據添加
                    IBM Candidate計算機翻譯項目
                    無所不包的谷歌翻譯系統
                    英國石油公司於無線傳感器
                    麻神理工與通貨緊縮預測軟件
                    Hadoop與VISA的13分鐘
  • 容許不精確
    • 使用全部可獲取的數據變得更爲可能,但爲此也要付出必定的代價。數據量的大幅增長形成結果的不許確
    • 咱們須要與各類各樣的混亂鬥爭
    • 論亂:錯誤率、格式不一致
    • 案例:葡萄牙溫度、word程序中語法檢查方法
  • 大數據的簡單算法比小數據的複雜算法更有效
    • IBM的Candide
    • 案例:無所不包的谷歌翻譯系統
  • 紛繁的數據越多越好
    • 大數據時代要求咱們從新審視精確性的優劣
    • 大數據不只讓咱們再也不期待精確性,也讓咱們沒法實現精確性
    • 錯誤並非大數據固有的特性,而是一個急需解決咱們去處理的現實問題,而且有可能長期存在
    • 案例:麻省理工與通貨緊縮預測軟件
  • 混雜性,不是竭力避免,而是標準途徑
    • 互聯網上最火的網址都代表,它們欣賞不精確而不會僞裝精確
    • 着並不表明系統不知道正確的數據時多少,只是當數據規模變大的時候,確切的數量已經不那麼重要
    • 要想得到大規模數據帶來的好處,混亂應該是一種標準途徑,而不該該是竭力避免的
  • 新的數據庫涉及的誕生
    • 多樣性是一種解決的方法
    • 案例:Hadoop
    • 容忍錯誤會給咱們帶來更多價值
    • 第一個折中是,咱們默認本身不能使用更多的數據,因此咱們就不會使用更多的數據
    • 第二個折中出如今數據的質量上
    • 相對依賴於小數據和精確性的時代,大數據由於更強調數據的完整性和混雜性,幫助咱們進一步接近事實的真相

3更好:不是因果關係,而是相關關係
 
沃爾瑪,請把蛋撻與颶風用品擺在一塊兒
FICO,「咱們知道你明天會作什麼」
美國折扣零售商塔吉特與懷孕預測
UPS與汽車修理預測
大數據預測早產兒病情
幸福感的非線性關係
二手車質量預測
紐約大型沙井蓋爆炸預測
  • 林肯與亞馬遜推薦系統
    • 推薦系統實際上並無必要把顧客與其餘顧客進行對比,這樣作實際上是技術上也比較煩瑣,它須要作的是找到產品之間的關聯性
    • 知道「是什麼」能夠創造點擊率,這種洞察力足以重塑不少行業,不只僅只是電子商務。
    • 知道是什麼就夠了,不必知道爲何
  • 關聯物,預測的關鍵
    • 相關關係的核心是量化兩個數據值之間的梳理關係
    • 經過給咱們找到一個現象的良好關聯物,相關關係能夠幫助咱們捕捉如今和預測將來
    • 當數據點以數量級方式增加的時候,咱們會觀察到許多似是而非的相關關係。
    • 咱們如今擁有如此多的數據,這麼好的計算機計算能力,並且再也不須要人工選擇一個關聯物或者一小部分類似數據來逐一分析
    • 大數據的相關關係分析法更準確、更快,並且不易受偏見的影響
    • 創建在相關分析基礎上的預測是大數據的核心
    • 一樣有用的一種方法是,經過找到新種類數據之間的相互聯繫來解決平常須要
    • 經過找到一個關聯物並監控它,咱們就能預測將來
    • 收集與分析數據的話費比出現停產的損失小得多
    • 當收集、儲存和分析數據的成本比較高的時候,應該適當地丟棄一些數據
    • 預測早產兒這個系統依賴的是相關關係,而不是英國關係。它告訴你的是會發生什麼而不是爲何發生,這正是這個系統的價值
    • 麥格雷戈博士的數據代表,早產兒的穩定不但不是病情好轉的標誌,反而是暴風雨前的寧靜,就像是身體要它的器官作好抵抗困難的準備
  • 「是什麼」,而不是「爲何」
    • 小數據時代與相關關係和因果關係分析都不容易,並且這些分析都有受偏見影響的可能。
    • 小數據時代僅限於線性分析,實際狀況特別複雜,不少都是「非線性關係」
    • 專家們正在研發能發現對比分析非線性關係的必要技術工具
    • 人的兩種思惟,第一種是不費力的快速思惟,經過這種思惟方式幾秒就能得出結果;另外一種是比較費力的慢性思惟,對於特定的問題,就是須要考慮到位。
    • 相關關係頗有用,不只僅是由於它能爲咱們提供新的視角,並且提供的視角都很清晰。而咱們一旦把因果關係考慮進來,這些死角就有可能被矇蔽掉
    • 黃色小車與質量的問題
    • 在知道是什麼後,咱們就會繼續向更深層次研究因果關係,找出背後的「爲何」
  • 改變,從操做方式開始
    • 咱們須要改變咱們的操做方式,使用咱們能收集到的全部數據,而不只僅是使用樣本。咱們不能再把精確性當成重心,咱們須要接受混亂和錯誤的存在。另外,咱們應該側重於分析相關關係,而再也不尋求每一個預測背後的緣由。
  • 大數據,改變人類探索世界的方法
    • 由於不受限於傳統的思惟模式和特定領域裏隱含的固有偏見,大數據才能爲咱們提供如此多新的深入洞見。
    • 大數據時代將要釋放出的巨大價值使得咱們選擇大數據的理念和方法再也不是一種權衡,而是通往將來的必然改變。可是在咱們到達目的地以前,咱們有必要了解怎樣才能到 達。

 
第二部分 大數據時代的商業變革
04數據化:一切皆可「量化」
                              日本先進工業技術研究院的坐姿研究與汽車防盜系統
                              谷歌的數字圖書館
                              多效地理定位於UPS的最佳行車路徑
                              Foursquare,讓用戶在最喜好的地方「check in"
                              用手機數據預測疾病傳播與城市繁榮
                              英國對衝基金公司,用微博數據預測股市投資時機
                              睡眠活動數據庫與睡眠模式預測
                              GPS感應器,判斷環境因素對哮喘病的影響
  • 莫里的導航圖,大數據的最先實踐之一
    • 許多船掛了一面特殊的旗幟,代表它參與了這個信息交流計劃。這些旗幟就是出如今一些網站上的友情連接的前身。
  • 數據從最不可能的地方提取出來
    • 大數據的核心就是挖掘出龐大的數據庫獨有的價值
    • 遠在信息數據化以前,對數據的運用就已經開始了
  • 數據化,不是數字化
    • 數據化,這是指一種把現象轉變可製表分析的量化形式的過程。
    • 數字化是把模擬數據轉換成用0和1表示的二進制碼
    • 爲了獲得可量化的信息,咱們要知道如何計量;爲了數據化量化了的信息,咱們要知道怎麼記錄計量的結果。
  • 量化一切,數據化的核心
    • 計量和記錄一塊兒促成了數據的誕生,它們是數據化最先的根基
    • 數字化帶來了數據化,可是數字化沒法取代數據化
  • 當文字成爲數據
    • 谷歌的數字圖書館
    • 但文字變成數據,它就大顯神通了——人能夠用之閱讀,機器也能夠用之分析。
    • 做爲典型的大數據公司,谷歌天然知道收集信息並進行數據化的價值,這些數據有很是多的潛在用途。
  • 當方位變成數據
    • 「現實挖掘」這裏指的是經過處理大量來自手機的數據,發現和預測人類行爲。
    • 位置信息一被數據化,新的用途就猶如雨後春筍般涌現出來,而新價值也會隨之不斷催生。
  • 當溝通變成數據
    • Twitter情緒數據化
    • 社交圖譜  FICO
    • twitter情感分析以得到顧客反饋意見的彙總或對營銷得到的效果進行判斷
    • 監聽新微博的發佈頻率,他們就能預測一部電影的成敗
    • 微博關聯與疫苗接種
  • 世間萬物的數據化
    • 只要一點想象,萬千事物就能轉化爲數據形式,並一直帶給咱們驚喜。
    • 物聯網只是一種典型的數據化手段
    • 有了大數據的幫助,咱們不會再將世界看做是一連串wim認爲或是天然或是社會現象的時間,咱們會意識到本質上世界是由信息構成的。
    • 將世界看做信息,看做能夠理解的數據還有,爲咱們提供了一個從未有過的審視現實的視角。它是一種能夠滲透到全部生活領域的世界觀。
相關文章
相關標籤/搜索