大數據開啓了一次重大的時代轉型。就像望遠鏡讓咱們可以感覺宇宙,顯微鏡讓咱們可以觀測微生物同樣。大數據正在改變咱們的生活以及理解世界的方式,成爲新發明和新服務的源泉,它催生出了雲計算,雲安全等等,描繪出了一種全新的生態鏈。前端
大數據,一場生活、工做與思惟的大變革。那它究竟是什麼呢?如何去分析大數據?
通俗的講:算法
以上呢,就大致上通俗得去說明了大數據的概念和分析過程。其實,大數據分析就是讓數據「發聲」。讓本來「沉默」的數據能夠說出話:將來可能會發生什麼?數據庫
實際上,在大數據時代下,就是讓數據的處理變得更加簡單、更加快速,人們可以在瞬間處理成千上萬的數據。同時,在這樣的環境下就催生出三個重要的轉變:安全
首先,要分析與某事物相關的全部數據,而不是依靠分析少許的數據樣本;服務器
當數據處理技術已經發生了翻天覆地變化時,在大數據時代進行抽樣分析就像在汽車時代騎馬同樣。一切都改變了,咱們須要全數據模式,也就是樣本=整體。微信
在這個轉變中,就體現出大數據的其一特色——數據體量(volumes)會是巨大的。網絡
其次,要樂於接受數據的紛繁複雜,而再也不追求精確性;前端工程師
執迷於精確性是信息缺少時代和模擬時代的產物。只有5%的數據是結構化且適用於傳統數據庫的。若是不接受混亂,剩下95%的非結構化數據都沒法被利用,只有接受不精確性,咱們才能打開一扇從未涉足的世界的窗戶。總之,大數據的簡單算法比小數據的複雜算法更有效。數據結構
在這個轉變中,就天然而然出現大數據的又一特色——數據類別(variety)大,數據來自多種數據源。架構
最後,咱們的思想發生了轉變,再也不探求難以捉摸的因果關係,轉而關注事物的相關關係。
知道「是什麼」就夠了,不必知道「爲何」。在大數據時代,咱們沒必要非得知道現象背後的緣由,而是要讓數據本身「發聲」。
這就醞釀出大數據的真實性高(Veracity)和價值性優(value)的特色。
這三大轉變是相互聯繫和相互做用的。
咱們周圍有多少數據呢?
答案是300艾字節。至關於一部XXX電影(1GB) × 10億部 × 1024 × 300
這些數據從哪來的?
機器產生的結構數據
eg: 收銀票據,固定的格式。
人類產生的非結構數據
eg: 社交平臺的評論數據、上傳的圖片、視頻等等。
機構產生的混合數據
eg: 一家超市,有全部的進銷存數據,客戶購物數據,還有官網對超市的評論等,有結構化的數據,也有非結構化的數據。
馬雲說:互聯網還沒搞清楚的時候,移動互聯就來了,移動互聯還沒搞清楚的時候,大數據就來了。 在信息技術變革過程當中,咱們都把重點放在「T」(技術)上,而不是在「I」(信息)上。 如今,咱們是時候把聚光燈打向「I」,開始關注信息自己了。慢慢從「IT」思想趨向於「DT」的技術驅動。
下面經過幾個案例,讓你們實打實觸摸一把「大數據」。你會發現它其實就在咱們身邊並且也會發現頗有趣、很神奇。
咱們常說:世界上最遠的距離是監控攝像頭到紅綠燈的距離。它們都在一根杆子上,可是歷來就沒有經過數據被鏈接過。而如今,在大數據的背景下,它們同在一根杆子上的兩個本獨立運行的個體,變得相互依存,相互影響,數據共享的局面。將來的物聯網革命(物與物互相鏈接的互聯網,產生海量數據並能夠共享數據)又會帶來怎樣的改變呢?
如 Uber、Facebook 這樣「漠視」用戶隱私數據,也只是龐大互聯網在用戶隱私數據方面失控的冰山一角。這座冰山底下藏着的是無處不在的數據收集和使用。
「聽到你的觸摸」,這是論文的名字 (完整版:Hearing your touch: A new acoustic side channel on smartphones) 。在這裏,研究人員揭祕了「做案思路」,其實並不難理解。 即便是在觸摸屏上輕悄悄地操做,手指的每一次輕微的敲擊都會產生聲波。當戳擊屏幕不一樣位置時,聲波信息也會有相應的變化,就會出現形狀不一的聲波圖,這些聲波恰巧能夠被手機內置的麥克風捕捉到。
研究人員只須要開發了一個手機惡意應用程序,當這個程序被植入手機時,可以調動內置麥克風,讓其祕密開始工做,記錄下觸摸時的聲波信息。你全部的輸入數據也就所有拿到了。
下圖就是觸摸屏上按下「f」鍵時的聲波震動形狀。
從以上幾個案例咱們能夠看出,一切皆可「量化」!數據化的核心就是量化一切,當文字變成數據,當方位變成數據,當溝通變成數據,就只有你想不到的,沒有信息作不到的事情了。
下面我再經過阿里巴巴商業帝國的模式去理解「數據化」這一律念。
在阿里帝國中,支付寶是一種支付方式,這很常見。甚至於它在和騰訊的微信支付打着沒有硝煙的戰爭。那爲何阿里巴巴要這麼「拼命」開發支付寶呢,據銀聯數據,整個國內銀聯每一年的利潤也就十幾個億,那爲什麼要這麼「拼命玩」呢?不少人會說,這是個入口,的確是的,不過,我如今想去用另外的思惟去看它,那就是爲了數據!
爲何要爲了數據?由於他們要作更高維度的銀行。
其實,在2015年裏,馬雲就已經全新的定義了阿里這家公司,他說:咱們集團本質上是一家擴大數據價值的公司。和將來潛力相比雲計算和大數據還只是個嬰兒。對的,能夠知道,阿里是一家數據公司,只有這樣理解了,才知道阿里在過去幾年間,在資本市場上的大手筆。
要數據幹什麼?提供一個商業的基礎設施。這樣,咱們是否是理解了馬雲所做的資本運做了,固然,也就不難理解「大數據」了。
固然,不只僅是阿里,咱們時刻都暴露在「第三隻眼」之下:亞馬遜監視着咱們的購物習慣,谷歌監視着咱們的網頁瀏覽習慣,而微博彷佛什麼都知道,不只竊聽到了咱們心中的「TA」,還有咱們的社交關係網。
雲計算的關鍵詞在於「整合」,不管你是經過如今已經很成熟的傳統的虛擬機切分型技術,仍是經過Google後來所使用的海量節點聚合型技術,他都是經過將海量的服務器資源和網絡進行整合,調度分配給用戶,從而解決用戶由於存儲計算資源不足所帶來的問題。
大數據自己正是由於數據的爆發式增加帶來的一個新問題,如何存儲現在互聯網時代所產生的海量數據,如何有效的利用這些數據進行分析等等,這些問題都會在將來被解決。
雲計算和大數據之間的關係就比如,雲計算技術就是一個容器,大數據正是存放在這個容器中的水,大數據是要依靠雲計算技術來進行存儲和計算的,雲計算是要爲大數據的分析提供服務的。
大數據(Big Data)和人工智能(AI)這些名詞概念你們耳熟能詳,它們究竟是什麼?有什麼區別與聯繫呢?
以上篇幅或多或少讓你感覺過大數據,那麼在這就說說人工智能這個東東。
一句話來講,就是讓機器能像人同樣思考。這句話一點也不誇張,先記住,等會你就會明白。
真正的人工智能是在人工神經網絡技術的出現以後才得以蓬勃發展。
在人工神經網絡技術出現以前,咱們人類能清清楚楚地知道系統內部的分析過程,它們只是一個大型的複雜的程序而已;
而人工神經網絡則不一樣,它的內部是一個黑盒子,就像咱們人類的大腦同樣,咱們不知道它內部的分析過程,咱們不知道它是如何識別出人臉的,也不知道它是如何戰勝圍棋世界冠軍的。咱們只是爲它構造了一個軀殼而已,就像人類同樣,咱們只是生出了一個小孩而已,他腦子裏是如何想的咱們並不知道!這就是人工智能的可怕之處。讓機器能像人同樣思考。
人工智能既然是受之於人工神經網絡技術而發展的,那麼咱們就來講說人工神經網絡。
人工神經網絡是受到人類大腦結構的啓發而創造出來的。大腦中有不少神經元細胞,這些神經元細胞經過複雜而有序的鏈接從而成爲大腦神經網絡。
下圖就是人工神經網絡,它正是模仿了大腦的神經網絡的結構。有輸入和輸出環節。
咱們知道,大腦的結構越簡單,那麼智商就越低。單細胞生物是智商最低的了。人工神經網絡也是一 樣的,神經網絡的層數越多,它就越複雜,也說明越強大,所以咱們須要深度神經網絡。
那麼訓練深度的神經網絡這個過程就叫作深度學習。網絡構建好了後,咱們只須要負責不停地將訓練數據輸入到神經網絡中,它內部就會本身不停地發生變化不停地學習。打比方說咱們想要訓練一個深度神經網絡來識別貓。咱們只須要不停地將貓的圖片(大數據)輸入到神經網絡中去。訓練成功後,咱們任意拿來一張新的圖片,它都能判斷出裏面是否有貓。但咱們並不知道他的分析過程是怎樣的,它是如何判斷裏面是否有貓的。就像當咱們教小孩子認識貓時,咱們拿來一些白貓,告訴他這是貓,拿來一些黑貓,告訴他這也是貓,他腦子裏會本身不停地學習貓的特徵。最後咱們拿來一些花貓,問他,他會告訴你這也是貓。但他是怎麼知道的?他腦子裏的分析過程是怎麼樣的?咱們不得而知~
一個主要的區別是大數據是原始輸入,須要在數據變得有用以前作出數據結構化和集成;而人工智能是輸出,是處理數據產生的智能化的結果。這是二者本質上的不一樣。
大數據是舊式計算。它不會對結果起做用,它只是尋找數據。它定義了很是大的數據集,而且是極其多樣化的數據。數據集能夠存有結構化數據,例如關係數據庫中的事務數據,以及非結構化的數據,例如圖像,電子郵件數據,傳感器數據等。大數據爲人工智能提供集成好的數據。
人工智能是一種全新的計算形式,容許機器執行認知功能,例如對輸入起做用或做出反應,相似於人類的行爲。傳統的計算應用程序也會對數據作出反應,但反應和響應都必須手工編碼。正如咱們上面所說人類明白應用程序內部執行的邏輯。
咱們將多樣化的數據(x1,x2,x3)交給神經網絡去不斷訓練他們的識別能力,進而有着比較精準的輸出。這時當拋出任何類型的曲線球(是一種意外的輸入),應用程序沒法作出反應。而人工智能系統會不斷改變他們的行爲,以適應調查結果的變化和修改他們的反應(即輸出)。
以上是本質上的不一樣:簡單來講,大數據專一於輸入,人工智能專一於輸出。這種本質上的差別也造就了它們在應用上的差別化。
大數據主要是爲了得到洞察力。豆瓣如何根據你觀看的影片向你推薦可能喜愛的影片?由於它着眼於用戶的習慣以及他們的喜愛從而利用這些數據發掘出用戶對某件事物的偏好程度。
人工智能(AI)是關於決策,並學習去作出更好的決策。不管是自我調整軟件、自動駕駛汽車仍是檢查醫療樣本,AI都在作之前由人類完成的任務,但速度更快,錯誤更少。
將人工智能與大數據進行對比是一個天然的錯誤,部分緣由在於它們其實是在一塊兒。但它們是實現相同任務的不一樣工具。
由於人工智能須要數據來創建智能,特別是機器學習。例如,機器學習圖像識別應用程序是查看數億張飛機圖像,以瞭解飛機的構成,以便未來識別它們。AI的機器學習是經過反覆試驗來學習,這須要大量的數據來教授AI。
大數據能夠提供訓練AI的機器學習所須要的兩種數據。初始訓練的數據,它是一種啓動泵,並按期收集數據。一旦初始訓練完成,AI即可以茁壯成長,永不中止學習。這時大數據會源源不斷提供數據,此時的數據被稱爲持續化數據,AI接收持續化的數據,而且不斷調整它們的行爲已做出最佳的決策。AI應用程序擁有的數據越多,其結果就越準確。
當今,你們對「大數據」、「物聯網」、「人工智能」、「機器學習」、「5G時代」等詞確定不陌生,可能如今張口就來。甚至有人會以爲這些概念華而不實,很虛。固然這其中確定有很多媒體或公司打着這些招牌去博眼球。可是,將來的趨勢確定是這些。就像上一個互聯網風口同樣。
所以,不少人會以爲,上一個互聯網風口我沒有抓住,現在大數據、機器學習的風口我必定要抓住。就不斷涌入去學習大數據、機器學習、人工智能。毋庸置疑,這是好事。但仍是有不少人不會進入這個領域。但我想提供給你們一個思路,那就是從機器學習理論中找到學習的理論和方法。
下面這張圖的右邊部分是機器學習的理論:爲什麼建模?如何建模?建模誤區?如何應用?
從這張圖咱們能夠知道,學習方法是能夠從機器學習理論而來的,把名詞替換掉,其餘都是同樣的。不一樣的是,一個教人如何學習?一個教機器如何學習?
人工智能或大數據對教育的最大貢獻並不是是什麼錦上添花的技術,而是可供咱們平常學習參考的理論知識。
因此,這些「大數據」、「物聯網」、「人工智能」、「機器學習」、「5G時代」咱們每一個人均可以去學習,而且能夠學到東西,學習不一樣區塊的東西,從而用本身的知識體系挖掘出新知識的價值所在。無論是前端工程師亦或者是一位普通經商從業者。
更爲重要的是,咱們全部的人不只僅能夠去學,能學到東西。並且,咱們每一個人都參與其中。
大數據的定義是什麼?它是經過獲取、存儲、分析,從大容量數據中挖掘價值的一種全新的技術架構。
要作什麼?——獲取數據、存儲數據、分析數據
對誰作?——大容量數據
目的是什麼?——挖掘價值
它最終的目的是爲了價值,商業價值、科研價值等等。就比如,上一個移動互聯網時代,它最終的發展是服務於人,咱們能真正感覺到,感知到,從而利用到各個商業服務。全民網購、餐廳在線點單、微信讓咱們社交更方便,支付寶讓支付更簡單等等,這些咱們都能真正感覺到的,利用這些實實在在方便了咱們的平常生活,也能夠真正去利用這些爲咱們產生價值。
當一個新興事物在不斷壯大和成熟以後,全部的人都能參與融入進來,全部的領域都會發展和改進。就比如全面屏和摺疊屏的出現,前端是否是又要考慮這兩個大臉屏的兼容性問題,就會不斷出現新的解決方案。如今你可能並不知道5G、人工智能究竟是什麼?可是當它們成熟的時候,它就會滲入到平常生活,咱們都能感知並從中得到價值。
當世界開始邁向大數據時代時,社會也將經歷相似的地殼運動。在改變人類基本的生活與思考方式的同時,大數據早已在推進人類信息管理準則的從新定位。然而,不一樣於印刷革命,咱們沒有幾個世紀的時間去適應,咱們也許只有幾年時間。
在這幾年時間裏,咱們要去明白一個道理:「取之不盡,用之不竭」的數據創新。數據就像一個神奇的鑽石礦,當它的首要價值被髮掘後仍能不斷給予。它的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而絕大部分都隱藏在表面之下。
大數據並非一個充斥着算法和機器的冰冷世界,人類的做用依然沒法被徹底替代。大數據爲咱們提供的不是最終答案,只是參考答案,幫助是暫時的,而更好的方法和答案還在不久的將來。
最後,我以一個小小的問題做爲文章的結尾:在不久的將來上,你認爲Do the right thing
(作正確的事) 和 Do the thing right
(把事情作好) 哪一個更爲重要呢?
文/呂涯 如有錯誤,及時提出,一塊兒學習,共同進步。謝謝。 😝😝😝 以爲還不錯,騙你個贊,能否?