說明
:如遇到報錯沒有hadoop命令,請從新執行source hadoop-env.sh
。後續的實驗中同理。java
一、HDFS是Master和Slave的結構,分爲NameNode、Secondary NameNode和DataNode三種角色。node
二、HDFS經常使用命令mysql
①. hadoop fs 將本地文件上傳到hdfs,同時刪除本地文件。web
hadoop fs -ls / hadoop fs -lsr hadoop fs -mkdir /user/hadoop hadoop fs -put a.txt /user/hadoop/ hadoop fs -get /user/hadoop/a.txt / hadoop fs -cp src dst hadoop fs -mv src dst hadoop fs -cat /user/hadoop/a.txt hadoop fs -rm /user/hadoop/a.txt hadoop fs -rmr /user/hadoop/a.txt hadoop fs -text /user/hadoop/a.txt hadoop fs -copyFromLocal localsrc dst 與hadoop fs -put功能相似。 hadoop fs -moveFromLocal localsrc dst
② hadoop fsadmin 運行一個 HDFS 的 dfsadmin 客戶端sql
shell
數據庫
編程
安全
bash
③hadoop fsck 運行 HDFS 文件系統檢查工具。
用法:hadoop fsck [GENERIC_OPTIONS] <path> [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]]
④啓動 Hadoop
cd /app/hadoop-1.1.2/bin
./start-all.sh
三、Pig的調用方式:
四、Hive與關係數據庫的區別具體以下:
①Hive和關係數據庫存儲文件的系統不一樣,Hive使用的是Hadoop的HDFS(Hadoop的分佈式文件系統),關係數據庫則是服務器本地的文件系統;
②Hive使用的計算模型是Mapreduce,而關係數據庫則是自身的計算模型;
③關係數據庫都是爲實時查詢的業務進行設計的,而Hive則是爲海量數據作數據挖掘設計的,實時性不好;實時性的區別致使Hive的應用場景和關係數據庫有很大的不一樣;
④Hive很容易擴展本身的存儲能力和計算能力,這個是繼承Hadoop的,而關係數據庫在這個方面要比數據庫差不少。
五、組件
服務端組件:
客戶端組件: