大數據開發之Spark篇----過濾髒數據並統計

統計日誌數據中的髒數據 如今咱們手頭上有一個日誌文件,裏面只有3個字段分別是url,時間,流量。在日誌文件裏面這些都是字符串,因此不管是時間仍是流量均可能是一些不可用的格式,如今咱們要統計出有多少髒數據並保留。 先貼代碼吧,這裏不少東西我都是寫死了,你們就當個簡單例子來看看吧:java package sparkHomWork import java.io.{File, PrintWriter}
相關文章
相關標籤/搜索