終於有人把雲計算、大數據和人工智能講明白了!(1)

此文已由做者劉超受權網易雲社區發佈。html

歡迎訪問網易雲社區,瞭解更多網易技術產品運營經驗。程序員


今天跟你們講講雲計算、大數據和人工智能。爲何講這三個東西呢?由於這三個東西如今很是火,而且它們之間好像互相有關係:通常談雲計算的時候會提到大數據、談人工智能的時候會提大數據、談人工智能的時候會提雲計算……感受三者之間相輔相成又不可分割。但若是是非技術的人員,就可能比較難理解這三者之間的相互關係,因此有必要解釋一下。算法



1、雲計算最初的目標數據庫



咱們首先來講雲計算。雲計算最初的目標是對資源的管理,管理的主要是計算資源、網絡資源、存儲資源三個方面。瀏覽器

 





1管數據中心就像配電腦安全


什麼叫計算、網絡、存儲資源?
服務器

好比你要買檯筆記本電腦,是否是要關心這臺電腦是什麼樣的CPU?多大的內存?這兩個就被咱們稱爲計算資源。
微信

這臺電腦要上網,就須要有個能夠插網線的網口,或者有能夠鏈接咱們家路由器的無線網卡。您家也須要到運營商好比聯通、移動或者電信開通一個網絡,好比100M的帶寬。而後會有師傅弄一根網線到您家來,師傅可能會幫您將您的路由器和他們公司的網絡鏈接配置好。這樣您家的全部的電腦、手機、平板就均可以經過您的路由器上網了。這就是網絡資源。
網絡

您可能還會問硬盤多大?過去的硬盤都很小,大小如10G之類的;後來即便500G、1T、2T的硬盤也不新鮮了。(1T是1000G),這就是存儲資源。
架構

對於一臺電腦是這個樣子的,對於一個數據中心也是一樣的。想象你有一個很是很是大的機房,裏面堆了不少的服務器,這些服務器也是有CPU、內存、硬盤的,也是經過相似路由器的設備上網的。這時的問題就是:運營數據中心的人是怎麼把這些設備統一的管理起來的呢?


2靈活就是想啥時要都有,想要多少都行

管理的目標就是要達到兩個方面的靈活性。具體哪兩個方面呢?

舉個例子來理解:好比有我的須要一臺很小的電腦,只有一個CPU、1G內存、10G的硬盤、一兆的帶寬,你能給他嗎?像這種這麼小規格的電腦,如今隨便一個筆記本電腦都比這個配置強了,家裏隨便拉一個寬帶都要100M。然而若是去一個雲計算的平臺上,他要想要這個資源時,只要一點就有了。

這種狀況下它就能達到兩個方面靈活性:

  • 時間靈活性:想何時要就何時要,須要的時候一點就出來了;

  • 空間靈活性:想要多少就有多少。須要一個太很小的電腦,能夠知足;須要一個特別大的空間例如雲盤,雲盤給每一個人分配的空間動不動就很大很大,隨時上傳隨時有空間,永遠用不完,也是能夠知足的。

空間靈活性和時間靈活性,即咱們常說的雲計算的彈性。而解決這個彈性的問題,經歷了漫長時間的發展。


3物理設備不靈活

第一個階段是物理設備時期。這個時期客戶須要一臺電腦,咱們就買一臺放在數據中內心。

物理設備固然是愈來愈牛,例如服務器,內存動不動就是百G內存;例如網絡設備,一個端口的帶寬就能有幾十G甚至上百G;例如存儲,在數據中心至少是PB級別的(一個P是1000個T,一個T是1000個G)。

然而物理設備不能作到很好的靈活性:

  • 首先是它缺少時間靈活性。不可以達到想何時要就何時要。好比買臺服務器、買個電腦,都要有采購的時間。若是忽然用戶告訴某個雲廠商,說想要開臺電腦,使用物理服務器,當時去採購就很難。與供應商關係好的可能須要一個星期,與供應商關係通常的就可能須要採購一個月。用戶等了好久電腦纔到位,這時用戶還要登陸上去慢慢開始部署本身的應用。時間靈活性很是差。

  • 其次是它的空間靈活性也不行。例如上述的用戶須要一個很小很小的電腦,但如今哪還有這麼小型號的電腦?不能爲了知足用戶只要一個G的內存是80G硬盤的,就去買一個這麼小的機器。可是若是買一個大的,又會由於電腦大,須要向用戶多收錢,可用戶須要用的只有那麼小一點,因此多付錢就很冤。


4虛擬化靈活多了

有人就想辦法了。第一個辦法就是虛擬化。用戶不是隻要一個很小的電腦麼?數據中心的物理設備都很強大,我能夠從物理的CPU、內存、硬盤中虛擬出一小塊來給客戶,同時也能夠虛擬出一小塊來給其餘客戶。每一個客戶只能看到本身的那一小塊,但其實每一個客戶用的是整個大的設備上的一小塊。

虛擬化的技術使得不一樣客戶的電腦看起來是隔離的。也就是我看着好像這塊盤就是個人,你看着這塊盤就是你的,但實際狀況可能個人這個10G和你的這個10G是落在一樣一個很大很大的存儲上。並且若是事先物理設備都準備好,虛擬化軟件虛擬出一個電腦是很是快的,基本上幾分鐘就能解決。因此在任何一個雲上要建立一臺電腦,一點幾分鐘就出來了,就是這個道理。

這樣空間靈活性和時間靈活性就基本解決了。


5虛擬世界的賺錢與情懷

在虛擬化階段,最牛的公司是VMware。它是實現虛擬化技術比較早的一家公司,能夠實現計算、網絡、存儲的虛擬化。這家公司很牛,性能作得很是好,虛擬化軟件賣得也很是好,賺了好多的錢,後來讓EMC(世界五百強,存儲廠商第一品牌)給收購了。

但這個世界上仍是有不少有情懷的人的,尤爲是程序員裏面。有情懷的人喜歡作什麼事情?開源。

這個世界上不少軟件都是有閉源就有開源,源就是源代碼。也就是說,某個軟件作的好,全部人都愛用,但這個軟件的代碼被我封閉起來,只有我公司知道,其餘人不知道。若是其餘人想用這個軟件,就要向我付錢,這就叫閉源。

但世界上總有一些大牛看不慣錢都讓一家賺了去的狀況。大牛們以爲,這個技術你會我也會;你能開發出來,我也能。我開發出來就是不收錢,把代碼拿出來分享給你們,全世界誰用均可以,全部的人均可以享受到好處,這個叫作開源。

好比最近的蒂姆·伯納斯·李就是個很是有情懷的人。2017年,他因「發明萬維網、第一個瀏覽器和使萬維網得以擴展的基本協議和算法」而得到2016年度的圖靈獎。圖靈獎就是計算機界的諾貝爾獎。然而他最使人敬佩的是,他將萬維網,也就是咱們常見的WWW技術無償貢獻給全世界無償使用。咱們如今在網上的全部行爲都應該感謝他的功勞,若是他將這個技術拿來收錢,應該和比爾蓋茨差很少有錢。

開源和閉源的例子有不少:

例如在閉源的世界裏有Windows,你們用Windows都得給微軟付錢;開源的世界裏面就出現了Linux。比爾蓋茨靠Windows、Office這些閉源的軟件賺了不少錢,稱爲世界首富,就有大牛開發了另一種操做系統Linux。不少人可能沒有據說過Linux,不少後臺的服務器上跑的程序都是Linux上的,好比你們享受雙十一,不管是淘寶、京東、考拉……支撐雙十一搶購的系統都是跑在Linux上的。

再若有Apple就有安卓。Apple市值很高,可是蘋果系統的代碼咱們是看不到的。因而就有大牛寫了安卓手機操做系統。因此你們能夠看到幾乎全部的其餘手機廠商,裏面都裝安卓系統。緣由就是蘋果系統不開源,而安卓系統你們均可以用。

在虛擬化軟件也同樣,有了VMware,這個軟件很是貴。那就有大牛寫了兩個開源的虛擬化軟件,一個叫作Xen,一個叫作KVM,若是不作技術的,能夠不用管這兩個名字,可是後面仍是會提到。


6虛擬化的半自動和雲計算的全自動

要說虛擬化軟件解決了靈活性問題,其實並不全對。由於虛擬化軟件通常建立一臺虛擬的電腦,是須要人工指定這臺虛擬電腦放在哪臺物理機上的。這一過程可能還須要比較複雜的人工配置。因此使用VMware的虛擬化軟件,須要考一個很牛的證書,而能拿到這個證書的人,薪資是至關高,也可見覆雜程度。

因此僅僅憑虛擬化軟件所能管理的物理機的集羣規模都不是特別大,通常在十幾臺、幾十臺、最多百臺這麼一個規模。

這一方面會影響時間靈活性:雖然虛擬出一臺電腦的時間很短,可是隨着集羣規模的擴大,人工配置的過程愈來愈複雜,愈來愈耗時。另外一方面也影響空間靈活性:當用戶數量多時,這點集羣規模,還遠達不到想要多少要多少的程度,極可能這點資源很快就用完了,還得去採購。

因此隨着集羣的規模愈來愈大,基本都是千臺起步,動輒上萬臺、甚至幾十上百萬臺。若是去查一下BAT,包括網易、谷歌、亞馬遜,服務器數目都大的嚇人。這麼多機器要靠人去選一個位置放這臺虛擬化的電腦並作相應的配置,幾乎是不可能的事情,仍是須要機器去作這個事情。

人們發明了各類各樣的算法來作這個事情,算法的名字叫作調度(Scheduler)。通俗一點說,就是有一個調度中心,幾千臺機器都在一個池子裏面,不管用戶須要多少CPU、內存、硬盤的虛擬電腦,調度中心會自動在大池子裏面找一個可以知足用戶需求的地方,把虛擬電腦啓動起來作好配置,用戶就直接能用了。這個階段咱們稱爲池化或者雲化。到了這個階段,才能夠稱爲雲計算,在這以前都只能叫虛擬化。


7雲計算的私有與公有

雲計算大體分兩種:一個是私有云,一個是公有云,還有人把私有云和公有云鏈接起來稱爲混合雲,這裏暫且不說這個。

  • 私有云:把虛擬化和雲化的這套軟件部署在別人的數據中內心面。使用私有云的用戶每每頗有錢,本身買地建機房、本身買服務器,而後讓雲廠商部署在本身這裏。VMware後來除了虛擬化,也推出了雲計算的產品,而且在私有云市場賺的盆滿鉢滿。

  • 公有云:把虛擬化和雲化軟件部署在雲廠商本身數據中內心面的,用戶不須要很大的投入,只要註冊一個帳號,就能在一個網頁上點一下建立一臺虛擬電腦。例如AWS即亞馬遜的公有云;例如國內的阿里雲、騰訊雲、網易雲等。

亞馬遜爲何要作公有云呢?咱們知道亞馬遜原來是國外比較大的一個電商,它作電商時也確定會遇到相似雙十一的場景:在某一個時刻你們都衝上來買東西。當你們都衝上買東西時,就特別須要雲的時間靈活性和空間靈活性。由於它不能時刻準備好全部的資源,那樣太浪費了。但也不能什麼都不許備,看着雙十一這麼多用戶想買東西登不上去。因此須要雙十一時,就建立一大批虛擬電腦來支撐電商應用,過了雙十一再把這些資源都釋放掉去幹別的。所以亞馬遜是須要一個雲平臺的。

然而商用的虛擬化軟件實在是太貴了,亞馬遜總不能把本身在電商賺的錢所有給了虛擬化廠商。因而亞馬遜基於開源的虛擬化技術,如上所述的Xen或者KVM,開發了一套本身的雲化軟件。沒想到亞馬遜後來電商越作越牛,雲平臺也越作越牛。

因爲它的雲平臺須要支撐本身的電商應用;而傳統的雲計算廠商多爲IT廠商出身,幾乎沒有本身的應用,因此亞馬遜的雲平臺對應用更加友好,迅速發展成爲雲計算的第一品牌,賺了不少錢。

在亞馬遜公佈其雲計算平臺財報以前,人們都猜想,亞馬遜電商賺錢,雲也賺錢嗎?後來一公佈財報,發現不是通常的賺錢。僅僅去年,亞馬遜AWS年營收達122億美圓,運營利潤31億美圓。


8雲計算的賺錢與情懷

公有云的第一名亞馬遜過得很爽,第二名Rackspace過得就通常了。沒辦法,這就是互聯網行業的殘酷性,可能是贏者通吃的模式。因此第二名若是不是雲計算行業的,不少人可能都沒聽過了。

第二名就想,我幹不過老大怎麼辦呢?開源吧。如上所述,亞馬遜雖然使用了開源的虛擬化技術,但云化的代碼是閉源的。不少想作又作不了雲化平臺的公司,只能眼巴巴的看着亞馬遜掙大錢。Rackspace把源代碼一公開,整個行業就能夠一塊兒把這個平臺越作越好,兄弟們你們一塊兒上,和老大拼了。

 



因而Rackspace和美國航空航天局合做創辦了開源軟件OpenStack,如上圖所示OpenStack的架構圖,不是雲計算行業的不用弄懂這個圖,但可以看到三個關鍵字:Compute計算、Networking網絡、Storage存儲。仍是一個計算、網絡、存儲的雲化管理平臺。

固然第二名的技術也是很是棒的,有了OpenStack以後,果然像Rackspace想的同樣,全部想作雲的大企業都瘋了,你能想象到的全部如雷貫耳的大型IT企業:IBM、惠普、戴爾、華爲、聯想等都瘋了。

原來雲平臺你們都想作,看着亞馬遜和VMware賺了這麼多錢,眼巴巴看着沒辦法,想本身作一個好像難度還挺大。如今好了,有了這樣一個開源的雲平臺OpenStack,全部的IT廠商都加入到這個社區中來,對這個雲平臺進行貢獻,包裝成本身的產品,連同本身的硬件設備一塊兒賣。有的作了私有云,有的作了公有云,OpenStack已經成爲開源雲平臺的事實標準。


9 IaaS, 資源層面的靈活性

隨着OpenStack的技術愈來愈成熟,能夠管理的規模也愈來愈大,而且能夠有多個OpenStack集羣部署多套。好比北京部署一套、杭州部署兩套、廣州部署一套,而後進行統一的管理。這樣整個規模就更大了。

在這個規模下,對於普通用戶的感知來說,基本可以作到想何時要就什麼什麼要,想要多少就要多少。仍是拿雲盤舉例子,每一個用戶雲盤都分配了5T甚至更大的空間,若是有1億人,那加起來空間多大啊。

其實背後的機制是這樣的:分配你的空間,你可能只用了其中不多一點,好比說它分配給你了5個T,這麼大的空間僅僅是你看到的,而不是真的就給你了,你其實只用了50個G,則真實給你的就是50個G,隨着你文件的不斷上傳,分給你的空間會愈來愈多。

當你們都上傳,雲平臺發現快滿了的時候(例如用了70%),會採購更多的服務器,擴充背後的資源,這個對用戶是透明的、看不到的。從感受上來說,就實現了雲計算的彈性。其實有點像銀行,給儲戶的感受是何時取錢都有,只要不一樣時擠兌,銀行就不會垮。


10總結

到了這個階段,雲計算基本上實現了時間靈活性和空間靈活性;實現了計算、網絡、存儲資源的彈性。計算、網絡、存儲咱們常稱爲基礎設施Infranstracture, 於是這個階段的彈性稱爲資源層面的彈性。管理資源的雲平臺,咱們稱爲基礎設施服務,也就是咱們常聽到的IaaS(Infranstracture As A Service)。



2、雲計算不光管資源,也要管應用


 

有了IaaS,實現了資源層面的彈性就夠了嗎?顯然不是,還有應用層面的彈性。

這裏舉個例子:好比說實現一個電商的應用,平時十臺機器就夠了,雙十一須要一百臺。你可能以爲很好辦啊,有了IaaS,新建立九十臺機器就能夠了啊。但90臺機器建立出來是空的,電商應用並無放上去,只能讓公司的運維人員一臺一臺的弄,須要很長時間才能安裝好的。

雖然資源層面實現了彈性,但沒有應用層的彈性,依然靈活性是不夠的。有沒有方法解決這個問題呢?

人們在IaaS平臺之上又加了一層,用於管理資源以上的應用彈性的問題,這一層一般稱爲PaaS(Platform As A Service)。這一層每每比較難理解,大體分兩部分:一部分筆者稱爲「你本身的應用自動安裝」,一部分筆者稱爲「通用的應用不用安裝」。

  • 本身的應用自動安裝:好比電商應用是你本身開發的,除了你本身,其餘人是不知道怎麼安裝的。像電商應用,安裝時須要配置支付寶或者微信的帳號,才能使別人在你的電商上買東西時,付的錢是打到你的帳戶裏面的,除了你,誰也不知道。因此安裝的過程平臺幫不了忙,但可以幫你作得自動化,你須要作一些工做,將本身的配置信息融入到自動化的安裝過程當中方可。好比上面的例子,雙十一新建立出來的90臺機器是空的,若是可以提供一個工具,可以自動在這新的90臺機器上將電商應用安裝好,就可以實現應用層面的真正彈性。例如Puppet、Chef、Ansible、Cloud Foundary均可以幹這件事情,最新的容器技術Docker能更好的幹這件事情。


  • 通用的應用不用安裝:所謂通用的應用,通常指一些複雜性比較高,但你們都在用的,例如數據庫。幾乎全部的應用都會用數據庫,但數據庫軟件是標準的,雖然安裝和維護比較複雜,但不管誰安裝都是同樣。這樣的應用能夠變成標準的PaaS層的應用放在雲平臺的界面上。當用戶須要一個數據庫時,一點就出來了,用戶就能夠直接用了。有人問,既然誰安裝都一個樣,那我本身來好了,不須要花錢在雲平臺上買。固然不是,數據庫是一個很是難的東西,光Oracle這家公司,靠數據庫就能賺這麼多錢。買Oracle也是要花不少錢的。

然而大多數雲平臺會提供MySQL這樣的開源數據庫,又是開源,錢不須要花這麼多了。但維護這個數據庫,卻須要專門招一個很大的團隊,若是這個數據庫可以優化到可以支撐雙十一,也不是一年兩年可以搞定的。

好比您是一個作單車的,固然不必招一個很是大的數據庫團隊來幹這件事情,成本過高了,應該交給雲平臺來作這件事情,專業的事情專業的人來作,雲平臺專門養了幾百人維護這套系統,您只要專一於您的單車應用就能夠了。

要麼是自動部署,要麼是不用部署,總的來講就是應用層你也要少操心,這就是PaaS層的重要做用。

 



雖然說腳本的方式可以解決本身的應用的部署問題,然而不一樣的環境千差萬別,一個腳本每每在一個環境上運行正確,到另外一個環境就不正確了。

而容器是能更好地解決這個問題。

 



容器是 Container,Container另外一個意思是集裝箱,其實容器的思想就是要變成軟件交付的集裝箱。集裝箱的特色:一是封裝,二是標準。

 



在沒有集裝箱的時代,假設將貨物從 A運到 B,中間要通過三個碼頭、換三次船。每次都要將貨物卸下船來,擺得七零八落,而後搬上船從新整齊擺好。所以在沒有集裝箱時,每次換船,船員們都要在岸上待幾天才能走。

 

 


有了集裝箱之後,全部的貨物都打包在一塊兒了,而且集裝箱的尺寸所有一致,因此每次換船時,一個箱子總體搬過去就好了,小時級別就能完成,船員不再用上岸長時間耽擱了。


這是集裝箱「封裝」、「標準」兩大特色在生活中的應用。

 




那麼容器如何對應用打包呢?仍是要學習集裝箱。首先要有個封閉的環境,將貨物封裝起來,讓貨物之間互不干擾、互相隔離,這樣裝貨卸貨才方便。好在 Ubuntu中的LXC技術早就能作到這一點。

封閉的環境主要使用了兩種技術,一種是看起來是隔離的技術,稱爲 Namespace,也即每一個 Namespace中的應用看到的是不一樣的 IP地址、用戶空間、程號等。另外一種是用起來是隔離的技術,稱爲 Cgroups,也即明明整臺機器有不少的 CPU、內存,而一個應用只能用其中的一部分。

所謂的鏡像,就是將你焊好集裝箱的那一刻,將集裝箱的狀態保存下來,就像孫悟空說:「定」,集裝箱裏面就定在了那一刻,而後將這一刻的狀態保存成一系列文件。這些文件的格式是標準的,誰看到這些文件都能還原當時定住的那個時刻。將鏡像還原成運行時的過程(就是讀取鏡像文件,還原那個時刻的過程)就是容器運行的過程。

有了容器,使得 PaaS層對於用戶自身應用的自動部署變得快速而優雅。



3、大數據擁抱雲計算

在PaaS層中一個複雜的通用應用就是大數據平臺。大數據是如何一步一步融入雲計算的呢?


1數據不大也包含智慧

一開始這個大數據並不大。原來纔有多少數據?如今你們都去看電子書,上網看新聞了,在咱們80後小時候,信息量沒有那麼大,也就看看書、看看報,一個星期的報紙加起來纔有多少字?若是你不在一個大城市,一個普通的學校的圖書館加起來也沒幾個書架,是後來隨着信息化的到來,信息纔會愈來愈多。

首先咱們來看一下大數據裏面的數據,就分三種類型,一種叫結構化的數據,一種叫非結構化的數據,還有一種叫半結構化的數據。

  • 結構化的數據:即有固定格式和有限長度的數據。例如填的表格就是結構化的數據,國籍:中華人民共和國,民族:漢,性別:男,這都叫結構化數據。

  • 非結構化的數據:如今非結構化的數據愈來愈多,就是不定長、無固定格式的數據,例如網頁,有時候很是長,有時候幾句話就沒了;例如語音,視頻都是非結構化的數據。

  • 半結構化數據:是一些XML或者HTML的格式的,不從事技術的可能不瞭解,但也沒有關係。

其實數據自己不是有用的,必需要通過必定的處理。例如你天天跑步帶個手環收集的也是數據,網上這麼多網頁也是數據,咱們稱爲Data。數據自己沒有什麼用處,但數據裏面包含一個很重要的東西,叫作信息(Information)。

數據十分雜亂,通過梳理和清洗,纔可以稱爲信息。信息會包含不少規律,咱們須要從信息中將規律總結出來,稱爲知識(Knowledge),而知識改變命運。信息是不少的,但有人看到了信息至關於白看,但有人就從信息中看到了電商的將來,有人看到了直播的將來,因此人家就牛了。若是你沒有從信息中提取出知識,每天看朋友圈也只能在互聯網滾滾大潮中作個看客。

有了知識,而後利用這些知識去應用於實戰,有的人會作得很是好,這個東西叫作智慧(Intelligence)。有知識並不必定有智慧,例如好多學者頗有知識,已經發生的事情能夠從各個角度分析得頭頭是道,但一到實幹就歇菜,並不能轉化成爲智慧。而不少的創業家之因此偉大,就是經過得到的知識應用於實踐,最後作了很大的生意。

因此數據的應用分這四個步驟:數據、信息、知識、智慧。

最終的階段是不少商家都想要的。你看我收集了這麼多的數據,能不能基於這些數據來幫我作下一步的決策,改善個人產品。例如讓用戶看視頻的時候旁邊彈出廣告,正好是他想買的東西;再如讓用戶聽音樂時,另外推薦一些他很是想聽的其餘音樂。

用戶在個人應用或者網站上隨便點點鼠標,輸入文字對我來講都是數據,我就是要將其中某些東西提取出來、指導實踐、造成智慧,讓用戶陷入到個人應用裏面不可自拔,上了個人網就不想離開,手不停地點、不停地買。

不少人說雙十一我都想斷網了,我老婆在上面不斷地買買買,買了A又推薦B,老婆大人說,「哎呀,B也是我喜歡的啊,老公我要買」。你說這個程序怎麼這麼牛,這麼有智慧,比我還了解我老婆,這件事情是怎麼作到的呢?

 




2數據如何昇華爲智慧

數據的處理分幾個步驟,完成了才最後會有智慧。

第一個步驟叫數據的收集。首先得有數據,數據的收集有兩個方式:

  • 第一個方式是拿,專業點的說法叫抓取或者爬取。例如搜索引擎就是這麼作的:它把網上的全部的信息都下載到它的數據中心,而後你一搜才能搜出來。好比你去搜索的時候,結果會是一個列表,這個列表爲何會在搜索引擎的公司裏面?就是由於他把數據都拿下來了,可是你一點連接,點出來這個網站就不在搜索引擎它們公司了。好比說新浪有個新聞,你拿百度搜出來,你不點的時候,那一頁在百度數據中心,一點出來的網頁就是在新浪的數據中心了。

  • 第二個方式是推送,有不少終端能夠幫我收集數據。好比說小米手環,能夠將你天天跑步的數據,心跳的數據,睡眠的數據都上傳到數據中內心面。

第二個步驟是數據的傳輸。通常會經過隊列方式進行,由於數據量實在是太大了,數據必須通過處理纔會有用。可系統處理不過來,只好排好隊,慢慢處理。

第三個步驟是數據的存儲。如今數據就是金錢,掌握了數據就至關於掌握了錢。要否則網站怎麼知道你想買什麼?就是由於它有你歷史的交易的數據,這個信息可不能給別人,十分寶貴,因此須要存儲下來。

第四個步驟是數據的處理和分析。上面存儲的數據是原始數據,原始數據可能是雜亂無章的,有不少垃圾數據在裏面,於是須要清洗和過濾,獲得一些高質量的數據。對於高質量的數據,就能夠進行分析,從而對數據進行分類,或者發現數據之間的相互關係,獲得知識。

好比盛傳的沃爾瑪超市的啤酒和尿布的故事,就是經過對人們的購買數據進行分析,發現了男人通常買尿布的時候,會同時購買啤酒,這樣就發現了啤酒和尿布之間的相互關係,得到知識,而後應用到實踐中,將啤酒和尿布的櫃檯弄的很近,就得到了智慧。

第五個步驟是對於數據的檢索和挖掘。檢索就是搜索,所謂外事不決問Google,內事不決問百度。內外兩大搜索引擎都是將分析後的數據放入搜索引擎,所以人們想尋找信息的時候,一搜就有了。

另外就是挖掘,僅僅搜索出來已經不能知足人們的要求了,還須要從信息中挖掘出相互的關係。好比財經搜索,當搜索某個公司股票的時候,該公司的高管是否是也應該被挖掘出來呢?若是僅僅搜索出這個公司的股票發現漲的特別好,因而你就去買了,其實其高管發了一個聲明,對股票十分不利,次日就跌了,這不坑害廣大股民麼?因此經過各類算法挖掘數據中的關係,造成知識庫,十分重要。


 


 


網易雲計算基礎服務深度整合了 IaaS、PaaS 及容器技術,提供彈性計算、DevOps 工具鏈及微服務基礎設施等服務,幫助企業解決 IT、架構及運維等問題,使企業更聚焦於業務,是新一代的雲計算平臺,點擊可免費試用



免費體驗雲安全(易盾)內容安全、驗證碼等服務

更多網易技術、產品、運營經驗分享請點擊


相關文章:
【推薦】 雲架構師進階攻略(1)
【推薦】 認識用戶訪談

相關文章
相關標籤/搜索