Spark完成wordCount

Spark官方自带了WordCount的样例,我们也可以自己实现,加深对Spark的理解。

import org.apache.spark.{SparkConf, SparkContext}

object WordCount {

  def main(args: Array[String]): Unit = {    System.setProperty("hadoop.home.dir", "D:/winutils/")

    // 创建Spark配置,运行环境    val sparkConf = new SparkConf()    sparkConf.setAppName("WordCount")    sparkConf.setMaster("local")    // 创建Spark上下文对象    val sparkContext = new SparkContext(sparkConf)    // 从文件逐行读取到rdd    val rdd = sparkContext.textFile("input/WordCountInput")    // 将每一行内容分解为一个一个的单词    val words = rdd.flatMap(line => line.split(","))    // 转换数据结果并进行统计    val count  = words.map(word => (word, 1)).reduceByKey(_+_)

    count.foreach(println(_))  }

}

  每一步中Spark的操作如下:

原文地址:https://www.cnblogs.com/zhangjwcode/p/12420639.html

时间: 2024-10-08 00:54:51

Spark完成wordCount的相关文章

spark 的 wordcount

记录spark的Wordcount小程序: 前提:hdfs已经打开 创建一个name为wc.input的文件,上传到hdfs中的/user/hadoop/spark/中,内容如上图 [[email protected] hadoop-2.6.0-cdh5.4.0]# bin/hdfs dfs -put wc.input /user/hadoop/spark/            上传 [[email protected] hadoop-2.6.0-cdh5.4.0]# bin/hdfs dfs

Spark的wordcount程序产生多少个RDD?

val rdd = sc.textFile("hdfs://Master.hdp:9000/wc").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).collectrdd.saveAsTextFile("hdfs://Master.hdp:9000/out01") 思考:在spark的wordcount过程一共产生多少个RDD? 通过该命令(scala>

1.spark的wordcount解析

一.Eclipse(scala IDE)开发local和cluster (一). 配置开发环境 要在本地安装好java和scala. 由于spark1.6需要scala 2.10.X版本的.推荐 2.10.4,java版本最好是1.8.所以提前我们要需要安装好java和scala并在环境变量中配置好. 下载scala IDE for eclipse安装 连接:http://scala-ide.org/download/sdk.html  打开ide新建scala project 点击file -

编写Spark的WordCount程序并提交到集群运行[含scala和java两个版本]

编写Spark的WordCount程序并提交到集群运行[含scala和java两个版本] 1. 开发环境 Jdk 1.7.0_72 Maven 3.2.1 Scala 2.10.6 Spark 1.6.2 Hadoop 2.6.4 IntelliJ IDEA 2016.1.1 2. 创建项目1) 新建Maven项目 2) 在pom文件中导入依赖pom.xml文件内容如下: <?xml version="1.0" encoding="UTF-8"?> &l

用SBT编译Spark的WordCount程序

问题导读: 1.什么是sbt? 2.sbt项目环境如何建立? 3.如何使用sbt编译打包scala? sbt介绍 sbt是一个代码编译工具,是scala界的mvn,可以编译scala,java等,需要java1.6以上. sbt项目环境建立 sbt编译需要固定的目录格式,并且需要联网,sbt会将依赖的jar包下载到用户home的.ivy2下面,目录结构如下: |--build.sbt |--lib |--project |--src | |--main | | |--scala | |--tes

spark 例子wordcount topk

spark 例子wordcount topk 例子描述: [单词计算wordcount ] [词频排序topk] 单词计算在代码方便很简单,基本大体就三个步骤 拆分字符串 以需要进行记数的单位为K,自己拼个数字1为V,组成一个映射或者元组 分组(groupByKey) 词频排序 将分组后的数据进行排序 代码片段: /* 单词计算wordcount */ val input = Source.fromFile("E:/test.txt").getLines.toArray val wc

Spark 加强版WordCount ,统计日志中文件访问数量

原文地址:http://blog.csdn.net/whzhaochao/article/details/72416956 写在前面 学习Scala和Spark基本语法比较枯燥无味,搞搞简单的实际运用可以有效的加深你对基本知识点的记忆,前面我们完成了最基本的WordCount功能的http://blog.csdn.net/whzhaochao/article/details/72358215,这篇主要是结合实际生产情况编写一个简单的功能,功能就是通过分析CDN或者Nginx的日志文件,统计出访问

spark示例——WordCount修改版

java代码: 注:打包的时候一个依赖jar都不要. import java.util.Arrays; import java.util.List; import java.util.regex.Pattern; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapred.TextOutputFormat; import org.apache.

Eclipse 编写的spark版WordCount运行在spark上

1.代码编写 if (args.length != 3 ){       println("usage is org.test.WordCount <master> <input> <output>")       return     }     val sc = new SparkContext(args(0), "WordCount",     System.getenv("SPARK_HOME"), S

用IDEA编写spark的WordCount

我习惯用Maven项目 所以用IDEA新建一个Maven项目 下面是pom文件 我粘上来吧 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocati