使用SparkSQL编写wordCount的词频统计

使用SparkSQL编写wordCount的词频统计：

word.txt 文件：

hello hello scala spark
java sql html java hello
jack jack tom tom you he he sql

IDEA编写的 spark 代码：

object WordCount {

　　def main(args: Array[String]): Unit = {

　　　　val spark: SparkSession = SparkSession.builder()
　　　　.appName("wordCount")
　　　　.master("local[*]")
　　　　.getOrCreate()

　　　　//读取数据
　　　　val ds: Dataset[String] = spark.read.textFile("文件路径/word.txt")
　　　　//引包，不然无法调用 flatMap()
　　　　import spark.implicits._
　　　　//整理数据 (切分压平)
　　　　val ds1: Dataset[String] = ds.flatMap(_.split(" "))
　　　　//构建临时表
　　　　ds1.createTempView("word")
　　　　//执行 SQL 语句，结果倒序
　　　　val df: DataFrame = spark.sql("select value,count(*) count from word group by value order by count desc")
　　　　//展示
　　　　df.show()
　　　　//关闭
　　　　spark.stop()
　　}

}

运行结果：

+-----+-----+
|value|count|
+-----+-----+
|hello| 3|
| tom| 2|
| java| 2|
| sql| 2|
| he| 2|
| jack| 2|
| you| 1|
| html| 1|
|spark| 1|
|scala| 1|
+-----+-----+

如果哪里有错误，欢迎大家指出...

原文地址：https://www.cnblogs.com/Nahshon/p/12601219.html

时间： 2024-11-08 13:04:36

使用SparkSQL编写wordCount的词频统计的相关文章

Hadoop基础学习（一）分析、编写并运行WordCount词频统计程序

前面已经在我的Ubuntu单机上面搭建好了伪分布模式的HBase环境,其中包括了Hadoop的运行环境. 详见我的这篇博文:http://blog.csdn.net/jiyiqinlovexx/article/details/29208703 我的目的主要是学习HBase,下一步打算学习的是将HBase作为Hadoop作业的输入和输出. 但是好像以前在南大上学时学习的Hadoop都忘记得差不多了,所以找到以前上课做的几个实验:wordCount,PageRank以及InversedIndex.

WordCount优化——单词及词频统计

github地址 https://github.com/lzwk/WCpro PSP表格 PSP2.1 PSP阶段预估耗时(分钟) 实际耗时(分钟) Planning 计划 10 20 · Estimate · 估计这个任务需要多少时间 10 15 Development 开发 500 480 · Analysis · 需求分析 (包括学习新技术) 80 100 · Design Spec · 生成设计文档 30 30 · Design Review · 设计复审 (和同事审核设计文档) 30

实验二-3 Hadoop&Paoding 中文词频统计

参考教程在Hadoop上使用庖丁解牛(较复杂,并未采用,可以之后试试) http://zhaolinjnu.blog.sohu.com/264905210.html Lucene3.3.Lucene3.4中文分词——庖丁解牛分词实例(屈:注意版本) http://www.360doc.com/content/13/0217/13/11619026_266124504.shtml 庖丁分词在hadoop上运行时的配置问题(采纳了一半,没有按照其所写配置dic属性文件) http://f.da

Hadoop之词频统计小实验（基于单节点伪分布）

声明:1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Ubuntu操作系统,hadoop1-2-1,jdk1.8.0. 3)统计词频工作在单节点的伪分布上,至于真正实际集群的配置操作还没有达到,希望能够由本文抛砖引玉. (一)Hadoop的配置修正网上有很多Hadoop的配置教程,可自行寻找,这一部分主要是根据自身实际情况,结合自身特点,设置Hadoop.因为有时候根据别人的教程,设置总是不成功,因为别人的教程依赖于别人的软件或操作环境特点. 本部分也

第二周结对编程作业——词频统计

本周作业是结对编写一个词频统计的程序,我们组是我(欧阳思琪)和贺晋飞同学共同完成这项任务.在仔细阅读了要求之后,我们组对程序编程进行了讨论.由于语言可以不必局限于要求中的C.C++,我们便考虑JAVA或python,两者各有优缺点,JAVA写起来比较繁重,而基于以往用python处理NLP相关项目的经验觉得python较为简单,但觉得在简单要求下,使用JAVA的运行速度明显更快,所以我们选择使用JAVA来完成本次作业. 分工:欧阳思琪代码编写与博客编写贺晋飞代码审查与代码测试实际:由

单词词频统计（12组）

单词词频统计 0．前言该程序写于2018年7月9日,在北京航空航天大学与南通大学鞠小林老师结对完成.在此期间通过结对编程完成整个项目的需求分析.设计.开发.测试等.现在回顾一下这个程序的编写过程.与鞠老师的合作是很愉快的.总体信息如下: + 小组GitHub 地址:https://github.com/yuan574954352/WordCount + 博客园博客地址: + PSP PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟

201671010454词频统计软件项目报告

一.课程名称:2016级计算机科学与工程学院软件工程(西北师范大学) 二.课程要求:实验二软件工程个人项目三.实验目标: (1)掌握软件项目个人开发流程. (2)掌握Github上发布软件项目的操作方法. 四.实验内容: (一)需求分析程序可读入任意英文文本文件,改文件中英文词数大于等于1个,且能读取容纳英文原版<哈利波特>10万词以上的文章. 指定单词词频统计功能:用户可输入从该文本中想要查找词频的一个或任意多个英文单词,运行程序的统计功能可显示对应单词在文本中出现的次数和柱状图. 高

词频统计－单元测试

我自己的单元测试没有弄出来,我用c编的,在visual studio中貌似实现不了单元测试,而李俞寰同学是用c#编写的词频统计,在vs2015中实现单元测试无比的方便,所以我请教了他并借鉴了一下. [TestMethod()] public void DictionarySortTest() { Dictionary<string,int>input=new Dictionary<string,int>() { {"you,1}, {"are",1},

结对项目 - 词频统计Ⅱ

目的与要求代码复审练习结对练习编写单元测试基于上一个结对项目的结果,读取小文本文件A_Tale_of_Two_Cities.txt 或者大文本文件Gone_with_the_wind.txt,统计某一指定单词在该文本文件中出现的频率. 命令行格式: 提示符> Myapp.exe -f filename.txt -w word (PS:C++ 程序,Java 程序输出方式类似) 解释: 选项 -f 表示打开某一文件选项 -w 表示统计其后单词在打开的文件中的频率详细内容开发语言:J