Spark:使用Spark Shell的兩個示例

時間 2019-12-12

標籤 spark 使用 shell 兩個示例欄目 Spark 简体版

原文原文鏈接

Spark:使用Spark Shell的兩個示例

Python 行數統計

** 注意： **使用的是Hadoop的HDFS做爲持久層，須要先配置Hadooppython

命令行代碼

# pyspark
>>> lines = sc.textFile("/user/mint/README.md") # 建立一個名爲lines的RDD.首先要確保README.md在HDFS文件系統相應的路徑中.這裏的文檔是Spark在安裝目錄下,選擇其餘文檔.
>>> lines.count() # 行數
>>> lines.first() # 顯示第一個元素，這裏就是第一行

若是運行出錯,能夠排查以下狀況：shell

Spark沒有運行
README.md沒有放在對應的文件

結果示例

>>> lines = sc.textFile("README.md")
>>> lines.count()
99
>>> lines.first()
u'# Apache Spark'
>>> lines = sc.textFile("/user/mint/README.md")
>>> lines.first()
u'# Apache Spark'

Scala 行數統計

命令及結果示例

# spark-shell
scala> val lines  = sc.textFile("README.md")
lines: org.apache.spark.rdd.RDD[String] = README.md MapPartitionsRDD[1] at textFile at <console>:24

scala> lines.count()
res0: Long = 99

scala> lines.first()
res1: String = # Apache Spark

1. spark-shell簡單使用示例
2. [Spark] spark-shell 命令使用
3. Spark WordCount使用示例
4. Spark算子使用示例
5. Spark-shell和Spark-Submit的使用
6. Hive、Beeline、Spark-SQL、Spark-Shell CLI使用
7. Spark學習（一）---Spark-shell使用
8. Learning Spark——使用spark-shell運行Word Count
9. Spark GraphX示例
10. spark示例
更多相關文章...
• 使用 CSS 顯示 XML - XML 教程
• 使用 XSLT 顯示 XML - XML 教程
• Composer 安裝與使用
• 使用Rxjava計算圓周率

相關標籤/搜索

spark&spark

spark

flume+spark+hive+spark