利用Spark SQL實現輕量級用戶數據查詢

時間 2019-11-15

原文原文鏈接

簡介

當人們把愈來愈多的大數據存儲在HDFS或者AWS的S3上，一般下一個問題是如何讓全公司範圍的員工可以方便的查詢這些數據。一個選項是創建一個SQL-on-Hadoop系統，讓用戶使用SQL或者類SQL語言來查詢數據，可是這些SQL-on-Hadoop系統每每比較複雜，須要必定的開發和維護工做量。html

另外一個選項是，若是你已經有了Spark或者Hadoop YARN集羣，那麼利用Spark SQL，經過編寫少許的代碼，你就能夠創建一個輕量級的工具，讓用戶本身提交SQL語句，來獲取他們須要的數據。java

主要思路

這裏的思路是編寫一個Spark程序，在其中設置DataFrame（Spark SQL中的數據表）的數據格式（schema），而後用戶能夠經過Spark程序的參數，指定一個SQL查詢，進而執行這個查詢。sql

示例代碼

讓咱們經過一個具體的例子，來展現如何經過代碼實現這樣的功能。具體代碼參見這裏，下面是一些簡略解釋。apache

數據文件

咱們在AWS S3中有兩個文件: "s3n://bopublic/demo/selfservicequery/customers.json" 和 "s3n://bopublic/demo/selfservicequery/orders.json"。json

Spark程序

咱們編寫完Spark程序後，用戶能夠經過如下命令行執行SQL語句:微信

java -cp ... YourJob -q "select * from customers join orders on customers.key = orders.customerKey"ide

建立DataFrame數據格式（schema）

在Spark中，StructType類用來定義DataFrame的數據格式（schema）。下面代碼展現如何建立"customers"數據表的schema.工具

private static StructType createCustomerTableSchema() {
StructField[] fields = new StructField[] {
new StructField("key", DataTypes.IntegerType, true,
Metadata.empty()),
new StructField("name", DataTypes.StringType, true,
Metadata.empty()),
new StructField("address", DataTypes.StringType, true,
Metadata.empty())
};oop

StructType structType = new StructType(fields);
return structType;
}大數據