Java实现的一个词频统计程序

import java.util.HashMap;
import java.util.Iterator;

public class WordCount {
	public static void main(String[] args) {
		String[] text=new String[]{"the weather is good ","today is good","today has good weather","good weather is good"};
		HashMap<String, Integer> hashMap=new HashMap<String, Integer>();
		for (int i=0;i<text.length;i++){
			String temp=text[i];
			String[] words=temp.split("\\s");
			for(int j=0;j<words.length;j++){
				if(!hashMap.containsKey(words[j])){
					hashMap.put(words[j], new Integer(1));
				}else{
					int k=hashMap.get(words[j]).intValue()+1;
					hashMap.put(words[j], new Integer(k));
				}
			}
		}
		Iterator iterator=hashMap.keySet().iterator();
		while(iterator.hasNext()){
			String word=(String) iterator.next();
			System.out.println(word+":"+hashMap.get(word));
		}
	}
}

海量数据可以使用MapReduce来做。

Java实现的一个词频统计程序

时间: 2024-10-18 09:09:17

Java实现的一个词频统计程序的相关文章

Hadoop基础学习(一)分析、编写并运行WordCount词频统计程序

前面已经在我的Ubuntu单机上面搭建好了伪分布模式的HBase环境,其中包括了Hadoop的运行环境. 详见我的这篇博文:http://blog.csdn.net/jiyiqinlovexx/article/details/29208703 我的目的主要是学习HBase,下一步打算学习的是将HBase作为Hadoop作业的输入和输出. 但是好像以前在南大上学时学习的Hadoop都忘记得差不多了,所以找到以前上课做的几个实验:wordCount,PageRank以及InversedIndex.

用Spark写一个简单的wordcount词频统计程序

public class WordCountLocal {  public static void main(String[] args) {   SparkConf conf = new SparkConf().setAppName("WordCountLocal").setMaster("local[2]");      JavaSparkContext sc = new JavaSparkContext(conf);   JavaRDD<String&g

java实训一——词频统计

---恢复内容开始--- 驾驶员:葛晨延(16012010) 领航员:张广哲(16012007) 码云:https://gitee.com/happywindmannn/GCYshixun1/tree/master 实训过程照片: 1 import java.io.*; 2 import java.util.*; 3 import java.io.BufferedReader; 4 import java.io.FileReader; 5 import java.util.ArrayList;

词频统计程序

需求分析: 写一个程序对一篇英文文章中每个单词出现的次数进行统计,并按照首字母的顺序进行排列. 代码设计: 对每个单词出现的次数进行统计,并按照首字母的顺序进行排列,存储到map中. fp=fopen(str,"r"); map<string,int>list; while(fgets(text,1000,fp)!=NULL) { while(text[i]!='\0') { char s[40]; int k=0; while((text[i]>='A'&&

Java实现的一个小说采集程序

被标题吸引进来的不要骂我. 只是一个简单的实现,随手写了来下载一部喜欢的小说的.示例中的小说只是示例,不是我的菜. 使用了jsoup.挺好用的一个工具. 有需要的话,参考下自己改吧.挺简单的,是吧. 代码如下: package com.zhyea.doggie; import java.io.File; import java.io.FileWriter; import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.n

Java实现英语文章词频统计

1.需求:对于给定的英文文章进行单词频率的统计 2.分析: (1)建立一个如下图所示的数据库表word_frequency用来存放单词和其对应数量 (2)Scanner输入要查询的英文文章存入String中 (3)对String根据空格进行拆分存入word_frequency表中,并统计相应数量 (4)对word_frequency表中的数据按照频率由大到小,频率相同的情况下按照字母表顺序排序并输出 3.具体实现代码: 4.输入语句:You should help to set the dinn

第二周结对编程作业——词频统计

本周作业是结对编写一个词频统计的程序,我们组是我(欧阳思琪)和贺晋飞同学共同完成这项任务.在仔细阅读了要求之后,我们组对程序编程进行了讨论.由于语言可以不必局限于要求中的C.C++,我们便考虑JAVA或python,两者各有优缺点,JAVA写起来比较繁重,而基于以往用python处理NLP相关项目的经验觉得python较为简单,但觉得在简单要求下,使用JAVA的运行速度明显更快,所以我们选择使用JAVA来完成本次作业. 分工:欧阳思琪 代码编写与博客编写 贺晋飞   代码审查与代码测试 实际:由

201671010454词频统计软件项目报告

一.课程名称:2016级计算机科学与工程学院软件工程(西北师范大学) 二.课程要求:实验二 软件工程个人项目 三.实验目标: (1)掌握软件项目个人开发流程. (2)掌握Github上发布软件项目的操作方法. 四.实验内容: (一)需求分析 程序可读入任意英文文本文件,改文件中英文词数大于等于1个,且能读取容纳英文原版<哈利波特>10万词以上的文章. 指定单词词频统计功能:用户可输入从该文本中想要查找词频的一个或任意多个英文单词,运行程序的统计功能可显示对应单词在文本中出现的次数和柱状图. 高

词频统计的效能测试。

因为我的词频统计程序是拿Python语言编写的,所以在网上查找了适用于Python语音的效能测试工具. 1.介绍性能分析器 profiler是一个程序,用来描述运行时的程序性能,并且从不同方面提供统计数据加以表述.Python中含有3个模块提供这样的功能,分别是cProfile, profile和pstats.这些分析器提供的是对Python程序的确定性分析.同时也提供一系列的报表生成工具,允许用户快速地检查分析结果. Python标准库提供了3个不同的性能分析器: cProfile:推荐给大部