初识 Spark 大数据处理,目前还只是小白阶段,初步搭建起运行环境,慢慢学习之。
本文熟悉下 Spark 数据处理的几个经典案例。
Word Count
import org.apache.spark.SparkConf import org.apache.spark.SparkContext object WordCount { def main(args: Array[String]) { if (args.length < 1) { System.err.println("Usage: <file>") System.exit(1) } // 创建 SparkConf val conf = new SparkConf() conf.setAppName("WordCount") .setMaster("local[2]") // 创建 SparkContext val sc = new SparkContext(conf) // 数据处理 val line = sc.textFile(args(0)) line.flatMap(_.split("\\s+")) .map((_, 1)) .reduceByKey(_+_) .collect.foreach(println) // 关闭 SparkContext sc.stop } }
注意其中的几个问题:
- 正则表达式 "\\s+" 匹配任意空白字符
- SparkConf Name 和 Master Level 必须设置,本地调试应 local[i],i>1
- args(0) 表示待测试的文件,eg,"sqh.txt"
- 无论本地测试还是集群测试必须有 SparkContext 的实例
参考:
时间: 2024-10-06 00:10:41