[HDFS Manual] CH7 ViewFS Guide

View File System（ViewFS）提供一個方法來管理hadoop文件系統namespaces。對於多個namnode的集羣頗有用。在HDFS Federation，ViewFS和client上面的Linux的mount table 相似。ViewFS能夠用來建立我的的namespace。

Hadoop系統有多個clusters，每一個cluster可能被聯合到多個namespaces。也描述瞭如何在HDFS聯合上使用ViewFS，可讓應用可使用類似的方法，操做每一個聯合。

2. The Old World(Prior to Federation)

2.1單個Namenode Clusters

在之前HDFS聯合，一個cluster有一個namenode提供了一個文件系統namespace。假設有多個cluster，每一個cluster的文件系統namespace都是獨立的。此外集羣的存儲也是相互不共享的。(datanode集羣間是不共享的)。

Core-site.xml的每一個配置屬性設置namenode 的默認文件系統集羣：

<name>fs.default.name</name>

<value>hdfs://namenodeOfClusterX:port</value>

</property>

好比這個配置容許使用相對路徑來訪問cluster namenode。好比使用上面的/foo/bar配置表示hdfs://namenodeOfClusterX:port/foo/bar。

這個配置屬性須要配置在集羣的每一個gateway，也須要設置在關鍵的服務上，好比JobTracker和Oozie。

2.2 路徑使用

配置了以上設置，一般的路徑名：

1./foo/bar
這個配置等於hdfs://namenodeOfClusterX:port/foo/bar

2. hdfs://namenodeOfClusterX:port/foo/bar
是可用的路徑，使用相對路徑會更好，由於能夠根據cluster的變化而變化。

3. hdfs://namenodeOfClusterY:port/foo/bar
指向另一個集羣的路徑，可使用如下命令複製：
distcp hdfs://namenodeClusterY:port/pathSrc hdfs://namenodeClusterZ:port/pathDest

4.webhdfs://namenodeClusterX:http_port/foo/bar
URI用來訪問WebHDFS文件系統。注意WebHDFS使用HTTP端口namenode，而不是使用PRC端口。

5.http://namenodeClusterX:http_port/webhdfs/v1/foo/bar 和http://proxyClusterX:http_port/foo/bar
經過WebHDFS RESET API和HDFS代理，HTTP URLs訪問這些文件。

2.3 路徑名的最佳實踐

推薦使用上面類型1而不是類型2的。絕對URI相似於地址而且不容許應用程序轉化數據。

3 New World – Federation and ViewFS

3.1 How The Clusters Look

假設有多個集羣。每一個集羣有一個或者多個namenode。每一個namenode都有本身的namespace。一個namenode只屬於一個集羣。同一個集羣的namenode共享集羣中的物理存儲。Namespace關聯的集羣是獨立的。

3.2 使用ViewFs的每一個cluster的Namespace

爲了提供和以前的兼容，ViewFS文件系統用來爲每一個集羣建立獨立的集羣namespace view。和老的namespace相似。如下圖片顯示了mount table mount了4個namespace：

ViewFS實現了Hadoop file system結構和HDFS和本地文件系統相似。感受就是一個細微的文件系統用來鏈接到其餘文件系統。由於ViewFs實現了hadoop文件系統的藉口，對hadoop tool透明。好比ViewFs的命令和hdfs和本地文件系統同樣。

在hadoop配置文件能夠配置mount表的mount點。在每一個集羣的配置，默認的文件系統被設置到mount table：

<name>fs.defaultFS</name>

<value>viewfs://clusterX</value>

</property>

頭上在viewfs://以後是mount table名，推薦使用cluster name。而後hadoop系統查看在配置文件中的clusterx的mount table。操做覆蓋全部gateway和服務來包含全部集羣的mount table。對於每一個cluster，默認文件系統會被建立爲ViewFs mount table和上面描述的同樣。

Mount table 的掛載點在hadoop 配置文件中設置。全部mount table使用fs.viewfs.mounttable配置。Mount point是使用link標籤來連接其餘文件系統。推薦mount point的名字和掛載目標的同樣。對於全部的namespace沒有配置在mount table中，咱們可使用linkFallback，fallback到默認文件系統。

在如下mount table配置，namespace /data連接到文件系統hdfs://nn1-clusterx.example.com:8020/data，/project連接到hdfs://nn2-clusterx.example.com:8020/project。全部的namespace沒有被配置在mount table的好比/logs都會被連接到hdfs://nn5-clusterx.example.com:8020/home下。

<name>fs.viewfs.mounttable.ClusterX.link./data</name>

<value>hdfs://nn1-clusterx.example.com:8020/data</value>

</property>

<name>fs.viewfs.mounttable.ClusterX.link./project</name>

<value>hdfs://nn2-clusterx.example.com:8020/project</value>

</property>

<name>fs.viewfs.mounttable.ClusterX.link./user</name>

<value>hdfs://nn3-clusterx.example.com:8020/user</value>

</property>

<name>fs.viewfs.mounttable.ClusterX.link./tmp</name>

<value>hdfs://nn4-clusterx.example.com:8020/tmp</value>

</property>

<name>fs.viewfs.mounttable.ClusterX.linkFallback</name>

<value>hdfs://nn5-clusterx.example.com:8020/home</value>

</property>

</configuration>

替代方案，能夠經過linkMergeSlash來合併mount table的root。在mount table配置，ClusterY的root使用hdfs://nn1-clustery.example.com:8020合併。

<configuration>

  <property>

    <name>fs.viewfs.mounttable.ClusterY.linkMergeSlash</name>

    <value>hdfs://nn1-clustery.example.com:8020/</value>

  </property>

</configuration>

3.3 路徑使用

配置了以上設置，一般的路徑名：

1./foo/bar
這個配置等於hdfs://namenodeOfClusterX:port/foo/bar

2. hdfs://namenodeOfClusterX:port/foo/bar
是可用的路徑，使用相對路徑會更好，由於能夠根據cluster的變化而變化。

3. hdfs://namenodeOfClusterY:port/foo/bar
指向另一個集羣的路徑，可使用如下命令複製：
distcp hdfs://namenodeClusterY:port/pathSrc hdfs://namenodeClusterZ:port/pathDest

4.webhdfs://namenodeClusterX:http_port/foo/bar
URI用來訪問WebHDFS文件系統。注意WebHDFS使用HTTP端口namenode，而不是使用PRC端口。

5.http://namenodeClusterX:http_port/webhdfs/v1/foo/bar 和http://proxyClusterX:http_port/foo/bar
經過WebHDFS RESET API和HDFS代理，HTTP URLs訪問這些文件。

3.4 路徑使用最佳實踐

推薦使用上面類型1而不是類型2的。絕對URI相似於地址而且不容許應用程序轉化數據。

3.5 經過namespace重命名路徑名

在新的方式下，若是/user和/data在不一樣的namenode上，那麼就不能夠運行。

rename /user/joe/myStuff /data/foo/bar

3.7 FAQ

略

4 附錄：Mount table配置例子

一般，用戶不須要鄧毅表或者core-site.xml來使用mount table。

Mount table能夠在core-site.xml中描述，可是最好不要直接在core-site.xml上使用，而是經過一個獨立的文件，好比mountTable.xml，在core-site.xml增長如下配置：

<configuration xmlns:xi="http://www.w3.org/2001/XInclude">

  <xi:include href="mountTable.xml" />

</configuration>

在mountTable.xml文件，定義了ClusterX的mount table，ClusterX是三個namespace：
1.nn1-clusterx.example.com:8020,
2.nn2-clusterx.example.com:8020,
3.nn3-clusterx.example.com:8020.

這裏/home和/tmp由nn1-clusterx.example.com:8020 namenode管理，/foo和/bar在聯合集羣的其餘namenode。Home的base目錄被設置在/home，這樣每一個用戶能夠經過getHomeDirectory()訪問各自的home目錄，getHomeDirectory()定義能夠查看FileSystem/FileContext.

<configuration>

  <property>

    <name>fs.viewfs.mounttable.ClusterX.homedir</name>

    <value>/home</value>

  </property>

  <property>

    <name>fs.viewfs.mounttable.ClusterX.link./home</name>

    <value>hdfs://nn1-clusterx.example.com:8020/home</value>

  </property>

  <property>

    <name>fs.viewfs.mounttable.ClusterX.link./tmp</name>

    <value>hdfs://nn1-clusterx.example.com:8020/tmp</value>

  </property>

  <property>

    <name>fs.viewfs.mounttable.ClusterX.link./projects/foo</name>

    <value>hdfs://nn2-clusterx.example.com:8020/projects/foo</value>

  </property>

  <property>

    <name>fs.viewfs.mounttable.ClusterX.link./projects/bar</name>

    <value>hdfs://nn3-clusterx.example.com:8020/projects/bar</value>

  </property>

</configuration>

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。