Spark shell 詞頻統計和統計PV心得

全部過程按本人實驗java

並以本人可以接受的方式理解的,你們能夠參考,若有問題請留言指正。
數組

樣本數據oracle

[hadoop@h201 ~]$ cat hh.txt ide

hello,world函數

hello,hadoopoop

hello,oraclespa

hadoop,oracle日誌

hello,worldorm

hello,hadoop排序

hello,oracle

hadoop,oracle

 

詞頻統計,及其按單詞數量倒序排序過程及其詳解

1.將文件加載成RDD

Scala>  var file=sc.textFile(hdfs://h201:9000/hh.txt)

2.將每行按逗號拆分,結果裝載到一個數組中,每次提取一個單詞, _表明每次輸入內容的佔位符

Scala>  val  h1=file.flatMap(_.split(,))

3. 將數組中的每一個元素裝載到map方法中執行統一的處理任務,將輸入的每一個單詞返回成k,v 鍵值對,reduceByKey()方法只對value只運行括號內的方法進行迭代計算_+_ 表明累加,返回的是k和進行過迭代計算的v 鍵值對

Scala>  val  h2=h1.map(x=>(x,1)).reduceByKey(_+_)

4. 再用第二個map接收上一步的k,v鍵值對進行交換位置輸出例如:

輸入的是(hello,5)變成(5,hello

Scala>  val  h3=h2.map(_.2,_.1)

5. 將結果按key值排序

Scala>  val  h4=h4.sortByKey(false)      false=倒序 true=升序

6. 在使用map函數將拍好序的鍵值對進行交換例如:

(5,hello) (4,hadoop)   變成(hello,5)(hadoop,4)

Scala> val  h5=h4.map(_.2,_.1)

7. 到此已經完成了詞頻統計並按照單詞數量的降序進行了排列已經完成下一步能夠將結果輸出到文件夾中,注意是一個目錄

Scala>  h5.saveAsTextFile("hdfs://h201:9000/output1")

上述全部操做拆分爲了方便理解,能夠將全部操做合成一條代碼:以下

Scala > val wc = file.flatMap(_.split(",")).map(x=>(x,1)).reduceByKey(_+_).map(x=>(x._2,x._1)).sortByKey(false).map(x=>(x._2,x._1)).saveAsTextFile(hdfs://h201:9000/output1)

 

flatMap() 與 map() 的區別

flatMap() 與 map() 都是對輸入的每行內容作一樣的操做可是產生的結果不相同;

例如樣本:

hello,world

hello,hadoop

hello,oracle

將文件導入成RDD  =var file=sc.textFile(hdfs://xxx:9000/xx.txt)

一樣是用split方法按逗號分隔

Var fm=file.flatMap(_.split(,))   每行按逗號分隔後產生的結果解將每一個單詞放在一個集合中,下面若是使用fm中的內容是每次只會導入一個單詞:

java表示就是{hello,world,hello,hadoop,hello,oracle} 至關於一維數組

Var m=file.map(_.split(,))   每行按逗號分隔後產生的結果是將每行的變成一個字符串數組,再放到一個大的結果集中,下面若是使用m中的內容每次導入一個數組:

java表示就是{{hello,world},{hello,hadoop},{hello,oracle}} 至關於二維數組

這在使用Apache日誌統計PV時頗有用例如日誌格式以下:

123.23.4.5 - - xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

23.12.4.5 - - xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

咱們只須要取出按空格分隔的第一個列便可 這是使用flatMap就不合適了咱們能夠用map

Salca > var file=sc.textFile(hdfs://h201:9000/access.log)

Salca> var h1=file.map(_.split( ,2))      #按空格分隔最多兩列

Salca> var h2=h1.map(x=>(x(0),1))       #輸入的數組去第0列,便可取出IP

Salca> var h3=h2.reduceByKey(_+_)      #統計每一個連接的登陸次數

下面就是排序和保存在這裏就不在重複了。

相關文章
相關標籤/搜索