基於Spark的機器學習實踐 (三) - 實戰環境搭建

時間 2019-11-17

標籤基於 spark 機器學習實踐實戰環境搭建欄目 Spark 简体版

原文原文鏈接

0 相關源碼

1 Spark環境安裝

◆ Spark 由scala語言編寫,提供多種語言接口,須要JVMhtml

◆ 官方爲咱們提供了Spark 編譯好的版本,能夠沒必要進行手動編譯git

◆ Spark安裝不難,配置須要注意,而且不必定須要Hadoop環境github

下載 shell
解壓apache

tar zxvf spark-2.4.1-bin-hadoop2.7.tgz
複製代碼

2 Spark配置

◆ 在配置前儘可能先閱讀官方文檔,避免直接從網上找配置教程bash

◆ 要爲節點設置好使用的內存,不然可能致使節點利用率低;session

◆ 注意spark中IP與端口號的配置,以避免UnknownHostExceptionapp

官網配置

應用默認配置機器學習
配置文件函數
複製兩份模板,開啓自行配置

單機環境配置

本地IP

shell進行驗證

bin/spark-shell
複製代碼

3 Spark shell

◆ Spark shell是一個bash腳本,在./bin目錄下

◆ Spark shell 爲咱們事先配置好了上下文(context) 和會話(session)

context實例
session實例
UI

4 實戰Wordcount

4.1 Wordcount簡介

◆ Wordcount 詞頻統計,是大數據分析中最爲基礎的一種任務英文分詞較容易,直接分割空格便可。

◆ 實現思路首先將文件中全部的單詞提取出來,而後合併相同單詞

實現示意圖

項目搭建

添加spark jar包
全選jar包,先左鍵選中第一個,再拉到最後shift,再左鍵最後一個實現全選.
新建類
測試文件

`pwd`/`ls |grep L`
複製代碼

編寫函數
運行成功
打包
移除這些多餘的jar包
構建
將jar包放到spark/bin目錄下使用 Spark-submit 運行

Spark機器學習實踐系列

相關文章

相關標籤/搜索

機器學習實踐

機器學習PAI實戰

機器學習實戰

機器學習實戰-python3

solr5.5環境搭建

PHP_PHP環境搭建

Hadoop環境搭建

Linux環境搭建

紅包項目實戰

瀏覽器信息

網站建設指南

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<