【原創】一個複製本地文件到Hadoop文件系統的實例

時間 2019-11-19

原文原文鏈接

import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.URI;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.util.Progressable;

public class FileCopyWithProcess {

    public static void main(String[] args) throws IOException {
        // TODO Auto-generated method stub
        String localSrc = args[0];
        String dst = args[1];
        InputStream in = new BufferedInputStream(new FileInputStream(localSrc));
        Configuration conf = new Configuration();
        FileSystem fs  =  FileSystem.get(URI.create(dst),conf);
        try {
            OutputStream out = fs.create(new Path(dst),new Progressable() {
                @Override
                public void progress() {
                    // TODO Auto-generated method stub
                    System.out.println(".");
                }
            });
        IOUtils.copyBytes(in, out, 4096, true);
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }
}

上面的程序須要注意的地方是下面這行：java

FileSystem fs  =  FileSystem.get(URI.create(dst),conf);

FileSystem是一個通用的文件系統API，要操做指定的文件系統，必須取得其默認工廠實例。apache

默認的有幾種取得FileSystem靜態工廠實例方式，上面是其中一種，其中經過URI來肯定要使用的文件系統類型，另一種是FileSystem.get(conf)，此時是使用默認的本地文件系統。ide

因此若是要使用HDFS，則要調用第一種，而且在dst中將地址路徑寫成： hdfs://地址:端口號/路徑的形式。工具

實例化Progressable並重載progress方法，這裏打印"."來描述進度。oop

最後利用IOUtils工具包來將本地文件copy到制定的目標地址的文件上去。spa

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。