hadoop-3.2.0------>入門二 本地模式 grep實例

一、配置環境變量

        請查看上一篇博客有詳細教程正則表達式

二、進入到hadoop解壓出來的根目錄下

        輸入dir將你能夠查看到根目錄下全部的文件編程

       

        bin:存放的是咱們用來實現管理腳本和使用的腳本的目錄,咱們對hadoop文件系統操做的時候用的就是這個目錄下的腳本oop

        etc:存放咱們的核心的配置文件spa

        sbin : 存放的是咱們管理腳本的所在目錄,重要是對hdfs和yarn的各類開啓和關閉和單線程開啓和守護線程

        lib:該目錄下存放的是Hadoop運行時依賴的jar包,Hadoop在執行時會把lib目錄下面的jar所有加到classpath中。xml

        libexec:對外提供的編程庫頭文件(具體動態庫和靜態庫在lib目錄中),這些頭文件均是用C++定義的,一般用於C++程序訪問HDFS 或者編寫MapReduce程序blog

        share:Hadoop各個模塊編譯後的jar包所在的目錄教程

        include:對外提供的編程庫頭文件(具體動態庫和靜態庫在lib目錄中),這些頭文件均是用C++定義的,一般用於C++程序訪問HDFS或者編寫MapReduce程序hadoop

三、建立input文件夾(命令:mkdir input

四、輸入dir命令查看有沒有input文件夾

          

五、將etc目錄下hadoop文件夾中全部的xml文件複製到input目錄下(命令:cp etc/hadoop/*.xml       input

六、進入到input目錄下進行查看問價是否複製過來(進入input文件夾命令:cd input     查看文件  dir

        

七、返回上一級也就是咱們的根目錄下(命令  cd ../

八、輸入命令 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar       grep input output 'dfs[a-z.]+'

        bin/hadoop jar:執行一個jar文件input

        share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar :文件所在的目錄    examples由於加s了確定是多個案例

         grep :由於examples是多個案例咱們這裏執行的是grep 案例

        input:輸入文件夾

        output:輸出文件夾

                       注意:這裏的output文件夾不能存在,若是存在將會報錯,在執行命令時會自動建立output文件夾

        ‘dfs[a-z.]+’:正則表達式   以dfs開頭後面跟a-z任意字母   點的意思過濾\r\n 加號表示a-z任意多個

九、出現下圖即開始執行

        

        

 

十、進入output文件夾查看文件(命令:cd output)

十一、查看output文件夾中文件(命令:dir),裏面會出現兩個文件

        

        -SUCCESS:是個空文件表明你已經成功

十二、查看part-r-00000文件中的內容(命令:cat part-r-00000)

        

        箭頭所指表明一共有一個dfs開頭後面是a-z  這裏是和正則對應的

相關文章
相關標籤/搜索