茄子快傳數據分析之原理分析及數據清洗

時間 2019-12-05

標籤茄子數據分析原理清洗简体版

原文原文鏈接

茄子快傳數據分析之原理分析及數據清洗

需求：聯想集團有一款app產品叫茄子快傳（有上億的活躍用戶，集中在第三世界國家）
如今須要開發一個數據分析系統，來對app的用戶行爲數據作各種分析；java

原理：
流程以下圖：

流程簡單介紹：
用戶經過茄子的客戶端產生數據，
將使用時間，手機號，ip地址，手機的序列號，app的版本，app的下載渠道等重要信息上傳到聯想的web日誌服務器上，服務器的後臺系統打印出日誌文件，經過flume（一種日誌採集工具）將生成的日誌上傳到hdfs上，先進行數據清洗，將版本，渠道，用戶等重要信息丟失的過濾掉，生成新的文件，數據加載到hive中，進行運算處理，處理後的結果經過sqoop（一種數據遷移工具）保存到關係型數據庫中，好比MySql，再經過web服務器，將分析出的結果顯示到瀏覽器上。
預處理需求（mapreduce）：
1/ 請對app事件請求日誌進行預處理：
a) 過濾掉一些不合法數據（缺失device_id，app_ver_name,os_name，app_token，city,release_channel字段須要過濾）
b) 將原格式json，解析成csv（逗號分隔的文本）格式，並去掉」events」字段
c) 在原始數據中，追加一個字段user_id（若是是蘋果，就用device_id,若是是android，就用android_id）
數據預處理的時候，只須要map就能夠完成，因此就不須要reduce了。
處理要求：device_id，app_ver_name,os_name，app_token，city,release_channel 缺失則過濾
代碼以下：android

package com.cleanLog; import java.io.IOException; import org.apache.commons.lang.StringUtils; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.codehaus.jackson.JsonNode; import org.codehaus.jackson.map.ObjectMapper; public class AppLogClean { public static class MapTask extends Mapper<LongWritable, Text, Text, NullWritable>{ @Override protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, NullWritable>.Context context) throws IOException, InterruptedException { String line = value.toString(); ObjectMapper mapper = new ObjectMapper(); JsonNode log = mapper.readTree(line); JsonNode header = log.get("header"); if(StringUtils.isBlank(header.get("device_id").getTextValue())|| //也能夠直接getString（） StringUtils.isBlank(header.get("app_ver_name").getTextValue())|| StringUtils.isBlank(header.get("os_name").getTextValue())|| StringUtils.isBlank(header.get("app_token").getTextValue())|| StringUtils.isBlank(header.get("city").getTextValue())|| StringUtils.isBlank(header.get("release_channel").getTextValue())) { return; }else { String user_id = ""; if (header.get("device_id_type").getTextValue().equals("mac")) { user_id = header.get("device_id").getTextValue(); } else { user_id = header.get("android_id").getTextValue(); } StringBuilder sb = new StringBuilder(); sb.append(header.get("cid_sn").getTextValue()).append(","); sb.append(header.get("mobile_data_type").getTextValue()).append(","); sb.append(header.get("os_ver").getTextValue()).append(","); sb.append(header.get("mac").getTextValue()).append(","); sb.append(header.get("resolution").getTextValue()).append(","); sb.append(header.get("commit_time").getTextValue()).append(","); sb.append(header.get("sdk_ver").getTextValue()).append(","); sb.append(header.get("device_id_type").getTextValue()).append(","); sb.append(header.get("city").getTextValue()).append(","); sb.append(header.get("android_id").getTextValue()).append(","); sb.append(header.get("device_model").getTextValue()).append(","); sb.append(header.get("carrier").getTextValue()).append(","); sb.append(header.get("promotion_channel").getTextValue()).append(","); sb.append(header.get("app_ver_name").getTextValue()).append(","); sb.append(header.get("imei").getTextValue()).append(","); sb.append(header.get("app_ver_code").getTextValue()).append(","); sb.append(header.get("pid").getTextValue()).append(","); sb.append(header.get("net_type").getTextValue()).append(","); sb.append(header.get("device_id").getTextValue()).append(","); sb.append(header.get("app_device_id").getTextValue()).append(","); sb.append(header.get("release_channel").getTextValue()).append(","); sb.append(header.get("country").getTextValue()).append(","); sb.append(header.get("time_zone").getTextValue()).append(","); sb.append(header.get("os_name").getTextValue()).append(","); sb.append(header.get("manufacture").getTextValue()).append(","); sb.append(header.get("commit_id").getTextValue()).append(","); sb.append(header.get("app_token").getTextValue()).append(","); sb.append(header.get("account").getTextValue()).append(","); sb.append(header.get("app_id").getTextValue()).append(","); sb.append(header.get("build_num").getTextValue()).append(","); sb.append(header.get("language").getTextValue()).append(","); sb.append(user_id); context.write(new Text(sb.toString()), NullWritable.get()); } } public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf); job.setJarByClass(AppLogClean.class); job.setMapperClass(MapTask.class); job.setOutputKeyClass(Text.class); //設置reduce的數量爲0 job.setNumReduceTasks(0); FileInputFormat.addInputPath(job, new Path("D:\\data\\appuserdata\\input\\20170102"));//這裏能夠設置成參數args[0] FileOutputFormat.setOutputPath(job, new Path("D:\\data\\appuserdata\\output\\20170102")); boolean completion = job.waitForCompletion(true);//提交的時候也能夠是submit，只不過這個是能看到過程。 System.out.println(completion?"成功":"失敗"); } } }