0016-Avro序列化&反序列化和Spark讀取Avro數據

1.簡介java

本篇文章主要講如何使用java生成Avro格式數據以及如何經過spark將Avro數據文件轉換成DataSet和DataFrame進行操做。git

1.1Apache Arvo是什麼?github

Apache Avro 是一個數據序列化系統,Avro提供Java、Python、C、C++、C#等語言API接口,下面咱們經過java的一個實例來講明Avro序列化和反序列化數據。apache

  • 支持豐富的數據結構
  • 快速可壓縮的二進制數據格式
  • 存儲持久數據的文件容器
  • 遠程過程調用(RPC)
  • 動態語言的簡單集成

2.Avro數據生成數據結構

2.1定義Schema文件ui

1.下載avro-tools-1.8.1.jarspa

Avro官網:http://avro.apache.org/ Avro版本:1.8.1 下載Avro相關jar包:avro-tools-1.8.1.jar 該jar包主要用戶將定義好的schema文件生成對應的java文件scala

2.定義一個schema文件,命名爲CustomerAdress.avsc3d

{code

"namespace":"com.peach.arvo",

"type": "record",

"name": "CustomerAddress",

"fields": [

{"name":"ca_address_sk","type":"long"},

{"name":"ca_address_id","type":"string"},

{"name":"ca_street_number","type":"string"},

{"name":"ca_street_name","type":"string"},

{"name":"ca_street_type","type":"string"},

{"name":"ca_suite_number","type":"string"},

{"name":"ca_city","type":"string"},

{"name":"ca_county","type":"string"},

{"name":"ca_state","type":"string"},

{"name":"ca_zip","type":"string"},

{"name":"ca_country","type":"string"},

{"name":"ca_gmt_offset","type":"double"},

{"name":"ca_location_type","type":"string"}

]

}

Schema說明:

  • namespace:在生成java文件時import包路徑
  • type:omplex types(record, enum,array, map, union, and fixed)
  • name:生成java文件時的類名
  • fileds:schema中定義的字段及類型

3.生成java代碼文件

使用第1步下載的avro-tools-1.8.1.jar包,生成java code

java -jar avro-tools-1.8.1.jar compile schema CustomerAddress.avsc .

末尾的"."表明java code 生成在當前目錄,命令執行成功後顯示:

2.2使用Java生成Avro文件

1.使用Maven建立java工程

在pom.xml文件中添加以下依賴

<dependency>

<groupId>org.apache.avro</groupId>

<artifactId>avro</artifactId>

<version>1.8.1</version>

</dependency>

2.新建java類GenerateDataApp,代碼以下

動態生成avro文件,經過將數據封裝爲GenericRecord對象,動態的寫入avro文件,如下代碼片斷:

3. Spark讀Avro文件

1.使用Maven建立一個scala工程

在pom.xml文件中增長以下依賴

2.Scala事例代碼片斷

3.Spark運行結果

源碼地址:

https://github.com/javaxsky/avrotospark

醉酒鞭名馬,少年多浮誇! 嶺南浣溪沙,嘔吐酒肆下!摯友不願放,數據玩的花!

相關文章
相關標籤/搜索