心得(一)

# 雲計算的概念
百科是這麼說的:雲計算是基於互聯網的相關服務的增長、使用和交付模式,一般涉及經過互聯網來提供動態易擴展且常常是虛擬化的資源。
那個人理解呢,雲計算分如下幾點:
一、基於互聯網
二、是一項服務
三、動態易擴展
四、虛擬化
五、是一個資源前端

雲計算軟件有OpenStack、Hadoop。
OpenStack是一個雲操做系統,經過數據中心可控制大型的計算、存儲、網絡等資源池。全部的管理經過前端界面管理員就能夠完成,一樣也能夠經過web接口讓最終用戶部署資源。
Hadoop是一款支持數據密集型分佈式應用程序並以Apache 2.0許可協議發佈的開源軟件框架。
這二者的特色分別是:OpenStack側重資源管理,Hadoop側重支撐數據分析。
# 虛擬化是什麼?
雲計算的核心技術之一就是虛擬化技術。所謂虛擬化,是指經過虛擬化技術將一臺計算機虛擬爲多臺邏輯計算機。在一臺計算機上同時運行多個邏輯計算機,每一個邏輯計算機可運行不一樣的操做系統,而且應用程序均可以在相互獨立的空間內運行而互不影響,從而顯著提升計算機的工做效率。web

而咱們平時經常使用的VMware呢,是一種虛擬化技術,VMware經過軟件層面實現虛擬化,因此虛擬化不等於VMware。
# 大數據又是什麼?
大數據,又稱爲巨量資料,指的是傳統數據處理應用軟件不足以處理它們的大或複雜的數據集的術語。大數據也能夠定義爲來自各類來源的大量非結構化或結構化數據。
因此大數據首先是數據量巨大,其次數據的類型能夠爲結構化或非結構化的。sql

在談大數據時,它所能實現的價值是技術發展的最終目的,所以怎麼樣纔可使價值體現得更多,得先從數據處理的過程提及:數據先要經過存儲層存儲下來,而後根據數據需求和目標來創建相應的數據模型和數據分析指標體系對數據進行分析產生價值。而中間的時效性又經過中間數據處理層提供的強大的並行計算和分佈式計算能力來完成。三層相互配合,讓大數據最終產生價值。所以可知,雲計算的做用是提升數據計算的時效性。
# Hadoop?
Hadoop是一個可以對大量數據進行分佈式處理的軟件框架,以一種可靠、高效、可伸縮的方式進行數據處理;Hadoop 依賴於社區服務,所以它的成本比較低,任何人均可以使用;Hadoop是一個可以讓用戶輕鬆架構和使用的分佈式計算平臺。數據庫

##Hadoop架構
從資源提供上分類:
1.Hadoop Distributed File System(HDFS),它存儲 Hadoop 集羣中全部存儲節點上的文件。
2.MapReduce是一種編程模型,用於大規模數據集(大於1TB)的並行運算。
從服務提供上分類:
1.HDFS的操做:HDFS能夠建立、刪除、移動或重命名文件等。
2.HDFS的編程:NameNode 是一個一般在 HDFS 實例中的單獨機器上運行的軟件。它負責管理文件系統名稱空間和控制外部客戶機的訪問。NameNode 決定是否將文件映射到 DataNode 上的複製塊上。DataNode 也是一個一般在 HDFS實例中的單獨機器上運行的軟件。Hadoop 集羣包含一個 NameNode 和大量 DataNode。DataNode 一般以機架的形式組織,機架經過一個交換機將全部系統鏈接起來。
3.MapReduce提供分佈式並行計算:MapReduce經過把對數據集的大規模操做分發給網絡上的每一個節點實現可靠性;每一個節點會週期性的返回它所完成的工做和最新的狀態。
4.HBase數據庫:面向列的數據庫。
5.HIVE數據倉庫:能夠將結構化的數據文件映射爲一張數據庫表,並提供簡單的sql查詢功能,能夠將sql語句轉換爲MapReduce任務進行運行。編程

數據倉庫的功能:
1.OLAP(On-Line Analytical Processing)聯機分析處理。能夠分維度、時間、地區進行讀取查詢。
2.數據挖掘,找出數據背後的行爲模式。
3.實時分析處理。便可實時分析高級別的任務。
數據庫與數據倉庫的區別:
數據庫主要是爲了處理基本的數據讀取和寫入,數據倉庫主要是爲了對歷史數據進行分析和查詢,也能夠這麼說,數據倉庫是一個只讀優化的數據庫。網絡

相關文章
相關標籤/搜索