1、Google的基本思想 一、GFS 二、MapReduce:計算模型,進行大數據計算 問題的來源:PageRank(網頁排名) 核心:先拆分,再合併node
三、BigTable:大表,NoSQL數據庫:HBase 基於HDFS之上的NoSQL數據庫、列式數據庫 表 ----> 目錄 數據 ----> 文件 思想:經過犧牲存儲的空間,來換取性能 把全部的數據存入一張表中,徹底違背了關係型數據庫範式的要求
2、Hadoop 2.X的安裝與配置 習慣:SecureCRT 準備:一、安裝Linux和JDK 二、關閉防火牆 三、配置主機名 解壓:tar -zxvf hadoop-2.7.3.tar.gz -C ~/training/ 設置環境變量:vi ~/.bash_profile HADOOP_HOME=/root/training/hadoop-2.7.3 export HADOOP_HOME數據庫
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH export PATH source ~/.bash_profile
3、Hadoop有三種安裝模式 一、本地模式 一臺Linux ()特色:沒有HDFS,只能測試MapReduce程序(本地數據:Linux的文件) ()配置:hadoop-env.sh 26行 export JAVA_HOME=/root/training/jdk1.8.0_144 (*)Demo:測試MapReduce程序 example: /root/training/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount ~/temp/data.txt ~/temp/mr/wc1bash
二、僞分佈模式 一臺Linux (*)特色:在單機上,模擬一個分佈式的環境,具有Hadoop的全部功能 (*)hdfs-site.xml <!--數據塊的冗餘度,默認是3--> <property> <name>dfs.replication</name> <value>1</value> </property> <!--是否開啓HDFS的權限檢查,默認:true--> <!-- <property> <name>dfs.permissions</name> <value>false</value> </property> --> core-site.xml <!--NameNode的地址--> <property> <name>fs.defaultFS</name> <value>hdfs://bigdata11:9000</value> </property> <!--HDFS數據保存的目錄,默認是Linux的tmp目錄--> <property> <name>hadoop.tmp.dir</name> <value>/root/training/hadoop-2.7.3/tmp</value> </property> mapred-site.xml <!--MR程序運行的容器是Yarn--> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> yarn-site.xml <!--ResourceManager的地址--> <property> <name>yarn.resourcemanager.hostname</name> <value>bigdata11</value> </property> <!--NodeManager運行MR任務的方式--> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> 對NameNode進行格式化: hdfs namenode -format 日誌:Storage directory /root/training/hadoop-2.7.3/tmp/dfs/name has been successfully formatted. 啓動:start-all.sh = start-dfs.sh + start-yarn.sh (*)Demo:測試MapReduce程序 example: /root/training/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /input/data.txt /output/wc1204 三、全分佈模式 三臺Linux (*)特色:真正的分佈式環境,用於生產