HDFS(Hadoop Distributed File System)是Hadoop 項目的核心子項目,在大數據開發中經過分佈式計算對海量數據進行存儲與管理。java
HDFS 是一個典型的主/從架構的分佈式系統。一個HDFS 集羣由一個元數據節點(NameNode)和一些數據節點(DataNode)組成。linux
舉個例子,咱們能夠把NameNode 想象成一個倉庫管理員,管理倉庫中的商品;DataNode 想象成是一個倉庫,用於存儲商品,而商品就是咱們所說的數據。git
命令行接口以下:github
$ bin/hadoop fs -命令 文件 路徑
或者apache
$ bin/hdfs dfs -命令 文件路徑
使用ls命令能夠查看HDFS系統中的目錄和文件。segmentfault
$ hadoop fs -ls /
操做演示:windows
[root@centos01 ~]# hadoop fs -ls / Found 2 items drwxr-xr-x - hadoop supergroup 0 2021-07-10 08:58 /input drwx------ - hadoop supergroup 0 2021-07-10 08:38 /tmp
遞歸列出HDFS 文件系統根目錄下的全部目錄和文件:centos
[root@centos01 ~]# hadoop fs -ls -R / drwxr-xr-x - hadoop supergroup 0 2021-07-10 08:58 /input -rw-r--r-- 2 hadoop supergroup 83 2021-07-10 08:58 /input/wc.txt drwx------ - hadoop supergroup 0 2021-07-10 08:38 /tmp drwx------ - hadoop supergroup 0 2021-07-10 08:38 /tmp/hadoop-yarn drwx------ - hadoop supergroup 0 2021-07-10 08:38 /tmp/hadoop-yarn/staging drwx------ - hadoop supergroup 0 2021-07-10 08:38 /tmp/hadoop-yarn/staging/hadoop drwx------ - hadoop supergroup 0 2021-07-10 08:49 /tmp/hadoop-yarn/staging/hadoop/.staging
使用put 命令能夠將本地文件上傳到HDFS系統中。如將本地文件a.txt 上傳到 HDFS 文件系統根目錄 input 文件夾中,命令以下:api
$ hadoop fs -put a.txt /input/
使用get命令能夠將 HDFS 文件系統中的文件下載到本地,注意下載時不能與本地文件名相同,不然會提示文件已存在。安全
$ hadoop fs -get /input/a.txt a.txt
將文件夾下載到本地:
$ hadoop fs -get /input/ ./
列出 hdfs 下的文件 $ hadoop dfs -ls 列出 hdfs / 路徑下的全部文件,文件夾 $ hadoop dfs -ls -R / 建立目錄 /input $ hadoop dfs -mkdir /input 列出 hsfs 名爲 input 的文件夾中的文件 $ hadoop dfs -ls input 將 test.txt 上傳到 hdfs 中 $ hadoop fs -put /home/binguner/Desktop/test.txt /input 將 hsdf 中的 test.txt 文件保存到本地桌面文件夾 $ hadoop dfs -get /input/test.txt /home/binguenr/Desktop 刪除 hdfs 上的 test.txt 文件 $ hadoop dfs -rmr /input/test.txt 查看 hdfs 下 input 文件夾中的內容 $ hadoop fs -cat input/* 進入安全模式 $ hadoop dfsadmin –safemode enter 退出安全模式 $ hadoop dfsadmin -safemode leave 報告 hdfs 的基本統計狀況 $ hadoop dfsadmin -report
pom.xml 文件中引入Hadoop的Java API 依賴包:
<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.8.2</version> </dependency>
新建 com/homay/hadoopstudy/FileSystemCat.java
類
package com.homay.hadoopstudy; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IOUtils; import sun.nio.ch.IOUtil; import java.io.InputStream; /** * @author: kaiyi * @Date 2021/7/12 0:25 */ public class FileSystemCat { public static void main(String[] args) throws Exception{ Configuration conf = new Configuration(); conf.set("fs.defalut.name", "hdfs://192.168.222.10:9000"); FileSystem fs = FileSystem.get(conf); // 打開文件輸入流 InputStream in = fs.open(new Path("hdfs:/input/wc.txt")); IOUtils.copyBytes(in, System.out, 4096, false); // 關閉輸入流 IOUtils.closeStream(in); } }
查看Hadoop 文件:
[hadoop@centos01 sbin]$ hadoop dfs -ls -R / WARNING: Use of this script to execute dfs is deprecated. WARNING: Attempting to execute replacement "hdfs dfs" instead. drwxr-xr-x - hadoop supergroup 0 2021-07-10 08:58 /input -rw-r--r-- 2 hadoop supergroup 83 2021-07-10 08:58 /input/wc.txt drwx------ - hadoop supergroup 0 2021-07-10 08:38 /tmp drwx------ - hadoop supergroup 0 2021-07-10 08:38 /tmp/hadoop-yarn drwx------ - hadoop supergroup 0 2021-07-10 08:38 /tmp/hadoop-yarn/staging drwx------ - hadoop supergroup 0 2021-07-10 08:38 /tmp/hadoop-yarn/staging/hadoo drwx------ - hadoop supergroup 0 2021-07-10 08:49 /tmp/hadoop-yarn/staging/hadoo [hadoop@centos01 sbin]$ hadoop -v
運行該文件,報這樣的錯誤:java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset
本地遠程鏈接 Hadoop 集羣異常,日誌以下:
22:27:56.703 [main] DEBUG org.apache.hadoop.util.Shell - Failed to detect a valid hadoop home directory java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset. at org.apache.hadoop.util.Shell.checkHadoopHomeInner(Shell.java:448) at org.apache.hadoop.util.Shell.checkHadoopHome(Shell.java:419) at org.apache.hadoop.util.Shell.<clinit>(Shell.java:496)
日誌描述內容很清楚,沒有設置 HADOOP_HOME 和 hadoop.home.dir 兩項。這兩項主要是幹嗎的呢?是配置在本地環境變量中的 Hadoop 地址,那麼須要下載Windows版本的Hadoop來設置麼?若是是遠程鏈接Linux上的Hadoop集羣,則徹底不須要再下載安裝Windows版本的Hadoop!!!
本地遠程鏈接Hadoop系統時須要在本地配置相關的Hadoop變量,主要包括hadoop.dll 與 winutils.exe 等。
winutils:因爲hadoop主要基於linux編寫,winutil.exe主要用於模擬linux下的目錄環境。當Hadoop在windows下運行或調用遠程Hadoop集羣的時候,須要該輔助程序才能運行。winutils是Windows中的二進制文件,適用於不一樣版本的Hadoop系統並構建在Windows VM上,該VM用以在Windows系統中測試Hadoop相關的應用程序。
瞭解到緣由以後,能夠根據安裝Hadoop集羣的版本,下載相應的winutils。
下載地址:https://github.com/stevelough...
注:若無相同的版本,可選擇就近的版本下載使用。如集羣中使用的版本是2.8.5,能夠下載使用2.8.3的版本文件。
將環境變量%HADOOP_HOME%
設置爲指向包含WINUTILS.EXE
的BIN
目錄上方的目錄。即:
注:不須要下載安裝windows版本的Hadoop,只須要引入winutils.exe便可。
從新啓動後,上邊的問題解決了,又出現了這樣的問題:Wrong FS: hdfs:/input/wc.txt, expected: file:///
詳細錯誤信息:
23:51:26.466 [main] DEBUG org.apache.hadoop.fs.FileSystem - FS for file is class org.apache.hadoop.fs.LocalFileSystem Exception in thread "main" java.lang.IllegalArgumentException: Wrong FS: hdfs:/input/wc.txt, expected: file:/// at org.apache.hadoop.fs.FileSystem.checkPath(FileSystem.java:730)
解決方案:
hadoop須要把集羣上的 core-site.xml
和 hdfs-site.xml
放到當前工程下。
1)hdfs-site.xml
2)core-site.xml
3)mapred-site.xml
上面三個文件,都是你linux環境安裝hadoop 的配置的xml 文件, 把hadoop集羣上的core-site.xml和hdfs-site.xml放到工程的src目錄下 /resource
下
而後再執行該文件,能夠看到 java 調用 Hadoop api 成功了 ^_^