大數據系統基礎(自主模式) 2.1大數據和雲計算關係概述

數量大  作海量的計算和存儲數據庫

算的速度快  處理速度快網絡

數據產生的地方和數據處理的地方每每不是同一個地方架構

作一個智能城市的應用  數據產生是在業外。好比說由各個地方,由傳感器採集來的,那數據處理是在數據中內心面進行的,若是能把收集到的數據快速傳輸到數據中內心頭,這須要一個很快的廣域網的數據傳輸。因此這個也是由數據量和咱們對數據處理速度的要求共同決定的。固然還有一些更不明顯的需求,並且大數據這個事情,剛剛起步,具體它會發展成什麼樣的你們也不是很清楚,因此咱們須要一個很是靈活,因此靈活是大數據一個很是重要的特徵。大數據,價值密度很是的低,存儲不少不少的數據,分析不少不少的數據,實際上它真正有用的只有那一點點。在這種狀況下,咱們要求大數據系統有一個低成本的特性,不然的話任何企業也不可能負擔的起咱們用很是昂貴的系統,象咱們過去作數據倉庫和數據庫那種方式作出來的存儲系統。咱們不可能利用那些系統來處理大數據,由於成本過高了。框架

那麼如何實現這些需求呢?這是大數據系統設計和不少的分佈式系統設計的三個核心的理念。並行化:一個事情一我的幹不了,咱們把它切成不少個小塊分給好多人同時幹,這樣你乾的就快樂。這就是並行化的概念。分佈式

規模經濟:若是你作一個這個事情,實際上它的成本是很低的,可是若是你規模經濟,同時你把它作不少不少,你把規模作大,你把設計成本你把這些個一次投入的成本都攤銷到這些個規模上去,這時候你的平均成本就低了,因此這是一個規模經濟的概念。oop

第三個是虛擬化,硬件、軟件都是多種多樣的,你把這些多種多樣的東西放在一塊兒,你很差管理很差調度,咱們須要定義一個很是漂亮的接口,而後把那些個很是噁心的具體的實現隱藏在下面,這些給你們一個好看的接口,這樣的話方便調度和管理,這就是虛擬化的概念。大數據

這三個其實都是一些很是樸實的觀點,由於作計算機的人,爲何叫作IT民工,他就是一些很是樸實的想法,可是這些想法推動到真正的系統中去,咱們會發現這個系統設計出來纔可以解決這樣的問題。雲計算

大數據系統的基本的軟硬件架構:設計

固然最基礎的硬件,從硬件層來講咱們就是計算資源、存儲資源,以及把它們用網絡鏈接起來。這是硬件層。剛纔咱們說到這種硬件層其實是多種多樣的,咱們很難管理。因此咱們有一層虛擬化層,咱們把存儲網絡和雲計算都虛擬化,這樣提供一個標準的接口。到雲計算這一層,其實是經過這個很好的虛擬化的這樣抽象的接口,咱們把這些資源進行統一的調度和管理。3d

在雲計算上層,由於咱們有資源了,這時候咱們提供的接口的是什麼?我要多少存儲,我要多少計算資源,我要多少網絡,這個雲就會提供給我。因此在這上層咱們能夠建設一系列的大數據處理的叫作框架,這個框架其實是體現了一種並行化的思想,它利用這些資源,把這些資源組織在一塊兒,讓它們協同工做,而後提供一個更加高層的接口。這種更加高層的接口隱藏了底下這些並行化的這些理念,因此讓你們開發應用會更加容易。比方說上面咱們能夠開發智能城市應用,開發一些視頻的應用,多媒體的應用等等。可是當你開發這些應用的時候,你會發現,你不用再想底下的這層複雜的這種實現了。

虛擬化及如下的這一層,是雲計算的基礎。雲這一層,主要講的是資源的調度和管理。咱們是如何把這些資源分配給不一樣的框架的。Hadoop、Spark大數據處理的框架。它們是提供怎樣的一個抽象,你怎樣來作這個應用。總體的最底下的這一系列的系統,爲大數據應用的開發,提供了一個很是很是好的環境。真正應用開發的人,或者說數據分析師們,已經不須要再想底下的這些個複雜的東西是怎麼回事了。

相關文章
相關標籤/搜索