使用SparkSQL 分析日誌中IP數、流量等數據

寫在前面 前面文章中,咱們使用Spark RDD從非結構化的日誌文件中分析出了訪問獨立IP數,單個視頻訪問獨立IP數和每時CDN流量,這篇文章主要介紹使用Spark SQL從結構化的數據中完成這些數據的分析,以下圖全部,先將日誌文件結構化成csv文件,此文件可從源碼cdn.csv中獲取css Pom文件中添加SparkSQL依賴 <dependency> <groupId>
相關文章
相關標籤/搜索