pycharm搭建spark環境

pycharm搭建spark環境
  • 安裝python環境
    windows下有安裝包,自行下載安裝便可
  • 安裝spark環境
    • 官網下載 spark-2.3.1-bin-hadoop2.7 包,解壓便可
    • 配置
      HADOOP_HOME:D:\softwares\Java\hadoop-2.7.7
      SPARK_HOME:D:\softwares\Java\spark-2.3.1-bin-hadoop2.7
      PATH:%SPARK_HOME%\bin;%HADOOP_HOME%\bin;
  • 配置python-spark環境
    • 將spark目錄 D:\softwares\Java\spark-2.3.1-bin-hadoop2.7\python\lib 下的 py4j-0.10.7-src.zip 解壓
    • 將解壓後的 py4j 放到 python 目錄 D:\softwares\Java\Python36\Lib\site-packages
    • 提示:python 和 spark 的安裝目錄自行替換
  • 下載安裝pycharm
    • 建立項目
    • 建立python文件,內容以下:
      from pyspark import SparkConf, SparkContext
      
      conf = SparkConf().setMaster('local').setAppName('JackManWu')
      sc = SparkContext(conf=conf)
      lines = sc.textFile("D:\softwares\Java\spark-2.3.1-bin-hadoop2.7\README.md")
      print(lines.count())
    • 點擊run運行,結果以下:
      2018-08-20 17:30:13 WARN  NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
      Setting default log level to "WARN".
      To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
      2018-08-20 17:30:15 WARN  Utils:66 - Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
      103
    • 運行是沒有問題,可是在pycharm中,pysparkSparkConfSparkContext 會有紅色波浪線,並且也沒有spark的代碼智能提示、補全等,極不方便,以下方法能夠解決:
      • 點擊File->Settings,在左側導航欄找到本身的項目,點擊 Project Structure ,在面板右側,點擊 Add Content Root ,將spark目錄 D:\softwares\Java\spark-2.3.1-bin-hadoop2.7\python\lib 下的 pyspark.zip 的文件添加進項目中,便可解決紅色波浪線及智能提示補全問題。
相關文章
相關標籤/搜索