安裝關係型數據庫MySQL和大數據處理框架Hadoop

做業要求來源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3161

1.簡述Hadoop平臺的起源、發展歷史與應用現狀。

一、介紹:

Hadoop不是指具體一個框架或者組件,它是Apache軟件基金會下用Java語言開發的一個開源分佈式計算平臺。實如今大量計算機組成的集羣中對海量數據進行分佈式計算。適合大數據的分佈式存儲和計算平臺。
Hadoop1.x中包括兩個核心組件:MapReduce和Hadoop Distributed File System(HDFS)
其中HDFS負責將海量數據進行分佈式存儲,而MapReduce負責提供對數據的計算結果的彙總。java

(1)、主要版本:

0.x系列版本:hadoop當中最先的一個開源版本,在此基礎上演變而來的1.x以及2.x的版本
1.x版本系列:hadoop版本當中的第二代開源版本,主要修復0.x版本的一些bug等
2.x版本系列:架構產生重大變化,引入了yarn平臺等許多新特性node

(2)、主要廠商

Hadoop的發行版除了社區的Apache hadoop外,cloudera,IBM,ORACLE等都提供子本身的商業版本。
mysql

免費開源版本apache:

http://hadoop.apache.org/
優勢:擁有全世界的開源貢獻者,代碼更新迭代版本比較快,
缺點:版本的升級,版本的維護,版本的兼容性,版本的補丁均可能考慮不太周到,學習能夠用,實際生產工做環境儘可能不要使用
apache全部軟件的下載地址(包括各類歷史版本):
http://archive.apache.org/dist/web

免費開源版本hortonWorks:

https://hortonworks.com/
hortonworks主要是雅虎主導Hadoop開發的副總裁,帶領二十幾個核心成員成立Hortonworks,核心產品軟件HDP(ambari),HDF免費開源,而且提供一整套的web管理界面,供咱們能夠經過web界面管理咱們的集羣狀態,web管理界面軟件HDF網址(http://ambari.apache.org/算法

軟件收費版本ClouderaManager:

https://www.cloudera.com/
cloudera主要是美國一家大數據公司在apache開源hadoop的版本上,經過本身公司內部的各類補丁,實現版本之間的穩定運行,大數據生態圈的各個版本的軟件都提供了對應的版本,解決了版本的升級困難,版本兼容性等各類問題,生產環境強烈推薦使用sql

二、起源:

Hadoop由 Apache Software Foundation 公司於 2005 年秋天做爲Lucene的子項目Nutch的一部分正式引入。它受到最早由 Google Lab 開發的 Map/Reduce 和 Google File System(GFS) 的啓發。
2006 年 3 月份,Map/Reduce 和 Nutch Distributed File System (NDFS) 分別被歸入稱爲 Hadoop 的項目中。
Hadoop 是最受歡迎的在 Internet 上對搜索關鍵字進行內容分類的工具,但它也能夠解決許多要求極大伸縮性的問題。例如,若是您要 grep 一個 10TB 的巨型文件,會出現什麼狀況?在傳統的系統上,這將須要很長的時間。可是 Hadoop 在設計時就考慮到這些問題,採用並行執行機制,所以能大大提升效率。
狹義上來講,hadoop就是單獨指代hadoop這個軟件,廣義上來講,hadoop指代大數據的一個生態圈,包括不少其餘的軟件。數據庫

三、發展:

Hadoop本來來自於谷歌一款名爲MapReduce的編程模型包。谷歌的MapReduce框架能夠把一個應用程序分解爲許多並行計算指令,跨大量的計算節點運行很是巨大的數據集。使用該框架的一個典型例子就是在網絡數據上運行的搜索算法。Hadoop [3] 最初只與網頁索引有關,迅速發展成爲分析大數據的領先平臺。
目前有不少公司開始提供基於Hadoop的商業軟件、支持、服務以及培訓。Cloudera是一家美國的企業軟件公司,該公司在2008年開始提供基於Hadoop的軟件和服務。GoGrid是一家雲計算基礎設施公司,在2012年,該公司與Cloudera合做加速了企業採納基於Hadoop應用的步伐。Dataguise公司是一家數據安全公司,一樣在2012年該公司推出了一款針對Hadoop的數據保護和風險評估的軟件。apache

四、應用現狀:

Hadoop目前已經取得了很是突出的成績。國外如Yahoo、Facebook、Adobe、Ebay以及國內的阿里、騰訊、新浪、美團、百度等互聯網公司均採用了hadoop雲架構平臺。隨着互聯網的發展,新的業務模式還將不斷涌現,Hadoop的應用也會從互聯網領域向電信、電子商務、銀行、生物製藥等領域拓展。編程

2.安裝MySql

mysql節點啓動成功:

登陸並查看數據庫:

3.Hadoop的安裝與配置

新建hadoop用戶:

在.bashrc配置文件裏配置JAVA_HOME環境變量:


檢驗環境變量是否配置成功:


檢查hadoop是否可用:

修改core-site.xml和hdfs-site.xml的configuration:

core-site.xml:

hdfs-site.xml:
安全

執行NameNode的格式化:

開啓NameNode和DataNode守護進程:

查看守護進程是否開啓成功:

運行mapreduce做業:



運行hadoop僞分佈實例:

最後關閉hadoop:

相關文章
相關標籤/搜索