pycharm pyspark 配置

1 、安裝了pycharm,下載spark(官網下載,我下的是spark-2.1.1-bin-hadoop2.7.tgz,解壓縮後爲文件夾spark-2.1.1-bin-hadoop2.7,我將文件放在了/Applications/spark/下,這個文件夾裏面有python文件,python文件下還有兩個壓縮包py4j-some-version.zip和pyspark.zip,以後會用到)python

二、隨便打開一個project,pycharm右上角「run」三角形的左邊有一個run configurition,打開它。oop

三、設置configurition---Environment--- Environment variables ---點擊「...」,出現框框,點擊+,輸入兩個name,一個是SPARK_HOME,另一個是PYTHONPATH,設置它們的values,SPARK_HOME的value是安裝文件夾spark-2.1.1-bin-hadoop2.7的絕對路徑,PYTHONPATH的value是該絕對路徑/python,例如個人SPARK_HOME的value是/Applications/spark/spark-2.1.1-bin-hadoop2.7,那麼個人PYTHONPATH的value是/Applications/spark/spark-2.1.1-bin-hadoop2.7/python 。設置好了保存。(注意無論是路徑的哪裏,都不能有空格!)spa

四、關鍵的一步,不少網頁上都只有到第3步,這樣引入spark的包仍是有紅線。在perferences中的project structure中點擊右邊的「add  content root」,添加py4j-some-version.zip和pyspark.zip的路徑(這兩個文件都在Spark中的python文件夾下)ip

五、完成,from pyspark import SparkContext,紅線消失,運行正常。hadoop

相關文章
相關標籤/搜索