Spark入門(二)--如何用Idea運行咱們的Spark項目

用Idea搭建咱們的Spark環境

用IDEA搭建咱們的環境有不少好處,其中最大的好處,就是咱們甚至能夠在工程當中直接運行、調試咱們的代碼,在控制檯輸出咱們的結果。或者能夠逐行跟蹤代碼,瞭解spark運行的機制。所以咱們選擇了idea,固然Idea不是首選,固然也能夠用其餘工具。由於咱們的Spark程序用scala和java寫,須要有java環境來做爲支撐。所以任何可以支撐java程序的開發工具,應該都可以搭建咱們的Spark程序。我這裏是MAC環境下,固然若是你是windows不用擔憂,這裏只涉及到idea的操做,不涉及操做系統環境的更改,因此你無須擔憂,由於Idea在Mac下和windows下並沒有多大差異java

第一步,下載插件,若是你只想用Java而不想用Scala,則能夠跳過這一步

在preference中找到plugins,搜索scala,而後下載該插件python

第二步,建立maven項目

第三步,導入scala的SDK,若是你只想用Java而不想用Scala,則能夠跳過這一步

打開project structure mysql

導入SDK sql

此時能夠建立Scala的class文件了 shell

第四步,在pom中導入插件和依賴

插件主要是幫助打包scala包,方便再spark平臺上發佈咱們的程序。固然僅僅最開始咱們儘量將項目運行在idea中,而不須要發佈。依賴是spark運行所必須的jar,其中spark的核心spark-core主要是用scala編寫的,固然你也可以用java去使用。apache

在pom文件中導入windows

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>sparkdemo</groupId>
    <artifactId>sparkdemo</artifactId>
    <version>1.0-SNAPSHOT</version>

    <build>
        <finalName>HiveTest</finalName>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>
            <plugin>
                <groupId>org.scala-tools</groupId>
                <artifactId>maven-scala-plugin</artifactId>
                <version>2.15.2</version>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>
    <dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.8.4</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.1.3</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-hive_2.11</artifactId>
            <version>2.1.3</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.11</artifactId>
            <version>2.1.3</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.11</artifactId>
            <version>2.1.3</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-mllib_2.11</artifactId>
            <version>2.1.3</version>
        </dependency>



        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>5.1.20</version>
        </dependency>
    </dependencies>

</project>
複製代碼

第五步,運行咱們的第一個程序

當咱們學習任何一項技術的時候,咱們都有一個愛好,喜歡先輸出Hello,World!在Spark中亦是如此,咱們第一個項目也是Hello,World!固然不少人說,spark的Hello,World!應該是字數統計(即統計一本書的或者一個文件的單詞數)。固然這也沒錯,畢竟spark的最核心的功能是大數據和機器學習,可是對一個初學者來講,我認爲,不妨再簡單些。api

建立Scala文件bash

接下來能夠開始寫咱們的第一個第一個程序。機器學習

首先建立一個SparkConf(),即spark的基礎配置,主要設置了master爲「local」即運行在本機而非集羣,第二個是AppName。然後建立SparkContext,這裏取名爲sc和咱們在spark-shell中默認的一致。最後爲sc設置內容,即一個list,其中包含三句話。依次輸出三句話

scala實現

package spark

import org.apache.spark.{SparkConf, SparkContext}

object HelloWorld {

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("HelloWorld")

    val sc = new SparkContext(conf)

    val helloWorld = sc.parallelize(List("Hello,World!","Hello,Spark!","Hello,BigData!"))

    helloWorld.foreach(line => println(line))
  }

}
複製代碼

運行獲得:

Hello,World!
Hello,Spark!
Hello,BigData!
複製代碼

java實現

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;

import java.util.Arrays;

public class HelloWorldJava {

    public static void main(String[] args){

        SparkConf conf = new SparkConf().setMaster("local").setAppName("HelloWorldJava");

        JavaSparkContext sc = new JavaSparkContext(conf);

        JavaRDD<String> helloWorld = sc.parallelize(Arrays.asList("Hello,World","Hello,Spark","Hello,BigData"));

        System.out.println(helloWorld.collect());

    }

}

複製代碼

運行獲得:

[Hello,World, Hello,Spark, Hello,BigData]
複製代碼

python實現

from pyspark import SparkConf,SparkContext


conf = SparkConf().setMaster("local").setAppName("HelloWorld")

sc = SparkContext(conf=conf)

helloWorld = sc.parallelize(["Hello,World","Hello,Spark","Hello,BigData"]).collect()

print(helloWorld)
複製代碼

運行獲得:

['Hello,World', 'Hello,Spark', 'Hello,BigData']
複製代碼

至此咱們就在scala、java、python中運行了咱們的第一個spark程序。固然,咱們能夠選擇本身最上手的語言去寫spark程序,spark自己也很是良好地支持了這三種語言。所以不要讓語言成爲障礙,反而所以得到更多的選擇。不管是java、scala仍是python都能寫出良好運行的spark程序

相關文章
相關標籤/搜索