java实现文本词频统计

File f=new File(path);
Map<String,Integer>map=new HashMap<>();
Version matchVersion = Version.LUCENE_31;
Analyzer analyzer = new StopAnalyzer(matchVersion);
BufferedReader br = new BufferedReader(new FileReader(f));//读取文件

TokenStream ts = analyzer.tokenStream(null, br);//用analyzer分词，得到token流
ts = new PorterStemFilter(ts);//过滤器提取词干
CharTermAttribute ca = ts.addAttribute(CharTermAttribute.class);//ca存储了ts的文本信息
ts.reset();//必须的
while(ts.incrementToken()){
String term = ca.toString();
if(!map.keySet().contains(term)){
map.put(term, 1);
}else
{
map.put(term, map.get(term)+1);
}
}
ts.end();
ts.close();
analyzer.close();
br.close();

StringBuilder sb=new StringBuilder();
File gh=new File(path);
for(String key:map.keySet()){
sb.append(key+" "+map.get(key)+"\r\n");
}
BufferedWriter bw=new BufferedWriter(new FileWriter(gh));
bw.write(sb.toString());
bw.flush();
bw.close();

时间： 2024-10-30 15:08:38

java实现文本词频统计的相关文章

Java实现的词频统计——Web迁移

本次将原本控制台工程迁移到了web工程上,依旧保留原本控制台的版本. 需求: 1.把程序迁移到web平台,通过用户上传TXT的方式接收文件: 2.在页面上给出链接 (如果有封皮.作者.字数.页数等信息更佳)或表格,展示经典英文小说词频统计结果: 3.支持用户自定义单词分隔符: 4.词汇范围对比(额外项). 实现: 1.迁移至web工程中,支持用户手动选择txt文件上传: 2.用户提交之后,会在后台运行词频统计函数,并且将统计结果的前10项打印到屏幕上: 3.统计结果文件Result.txt可以进

Java实现的词频统计——功能改进

本次改进是在原有功能需求及代码基础上额外做的修改,保证了原有的基础需求之外添加了新需求的功能. 功能: 1. 小文件输入——从控制台由用户输入到文件中,再对文件进行统计: 2.支持命令行输入英文作品的文件名: 3.支持命令行输入存储有英文作品文件的目录名,批量统计: 4.从控制台读入英文单篇作品,重定向输入流. 实现: 1.判断输入方式,如果从命令行传递参数则直接对文件进行统计:如果未传递参数,其方式同控制台相同,由用户从标准输入流输入到文件,再对文件进行词频统计.这里如果传入文件路径时会对其是

文本词频统计

本例是数组.字典.列表.jieba(第三方库)的综合应用,我们将对三国演义中出现次数前十的任务进行排名并统计出出现的次数. 程序1: #CalThreeKingdomsV1.pyimport jiebatxt = open("threekingdoms.txt", "r", encoding="utf-8").read()words = jieba.lcut(txt) #利用jieba函数进行分词并返回列表类型counts = {} #创建一个字

Java实现的词频统计

要求: 1.读取文件: 2.记录出现的词汇及出现频率: 3.按照频率降序排列: 4.输出结果. 概要: 1.读取的文件路径是默认的,为了方便调试,将要统计的文章.段落复制到文本中即可:2.只支持英文:3.会按照词汇出现的频率降序排列. 实现: 1.使用FileReader.BufferedReader读取文件: 2.采用StringTokenizer进行字符分割: 3.用hashmap保存统计数据: 4.自定义一个类用来实现按value排序: 5.输出结果. 默认路径文件: 1 String f

perl 大文本词频统计.

思想是设置子文本最大长度,然后分割成多个子文本, 最后合并. 词频则是当前位置字和前一位置的字的组合进入hash. 代码如下 use Encode; ##编码解码 system("time /t"); ##开始时间 $g_MaxBiNum=1000000; ##最大文本长度 BiCount("train.txt"); MergeBi(\@BiTmp,"bi.txt"); foreach (@BiTmp){ unlink($_); } syst

Java实现的词频统计——单元测试

前言:本次测试过程中发现了几个未知字符,这里将其转化为十六进制码对其加以区分. 1)保存统计结果的Result文件中显示如图: 2)将其复制到eclipse环境下的切分方法StringTokenizer中却没有显示: 复制前: 复制后: 前后看似没有任何变化: 3)改动后的统计结果: 因此为了检测这个字符做了一个将其转化为十六进制码的小程序: 1 String t = "\0"; 2 String s = "\0"; 3 byte[] bbb = t.getByte

python学习第十一个程序汉语文本词频统计

# CalThreeKingdoms.pyimport jieba '''安装第三方库中文分词jieba pip install jieba统计三国演义中出现次数最多的人''' txt = open("threekingdoms.txt", "rt", encoding="utf-8").read()# 排除出现频率较高的非人名exclude = ["却说", "二人", "不可",

201671010441徐浩杰词频统计软件项目报告

实验二.软件工程个人项目一.需求分析尝试按照<构建之法>第2章中2.3所述PSP流程,使用JAVA编程语言,独立完成一个英文文本词频统计的软件开发.软件基本功能要求如下: •程序可读入任意英文文本文件,该文件中英文词数大于等于1个. •程序需要很壮健,能读取容纳英文原版<哈利波特>10万词以上的文章. •指定单词词频统计功能:用户可输入从该文本中想要查找词频的一个或任意多个英文单词,运行程序的统计功能可显示对应单词在文本中出现的次数和柱状图. •高频词统计功能:用户从键盘输入高

201671010431+词频统计软件项目报告

一.需求分析按照<构建之法>第2章中2.3所述PSP流程,使用JAVA编程语言,独立完成一个英文文本词频统计的软件开发.软件基本功能要求如下: 1.程序可读入任意英文文本文件,该文件中英文词数大于等于1个. 2.程序需要很壮健,能读取容纳英文原版<哈利波特>10万词以上的文章. 3.指定单词词频统计功能:用户可输入从该文本中想要查找词频的一个或任意多个英文单词,运行程序的统计功能可显示对应单词在文本中出现的次数和柱状图. 4.高频词统计功能:用户从键盘输入高频词输出的个数k,运行

猜你喜欢

返回一个二维整数数组中最大子数组的和。

设计思路: 通过之前一维环,进行拓展,成数组. 代码: 1 //XiaoSong Du 2015/4/20 2 #include <iostream> 3 #include <tim ...

Git 常用的命令

基本内容: 工作区:就是你在电脑里能看到的目录. 暂存区:英文叫stage, 或index.一般存放在"git目录"下的index文件(.git/index)中,所以我们把暂存区有 ...

WPF 杂记

1,跨屏最大化单屏幕的时候我们可以设置 WindowState 来使应用最大化当接多个屏幕的时候,就需要下面这个设置: private void FullScreen() { this.Windo ...

ArcGIS API for JavaScript 4.2学习笔记[24] 【IdentifyTask类】的使用（结合IdentifyParameters类）（第七章完结）

好吧,我都要吐了. 接连三个例子都是类似的套路,使用某个查询参数类的实例,结合对应的Task类,对返回值进行取值.显示. 这个例子是Identify识别,使用了TileLayer这种图层,数据来自Se ...

关于在 loadView 中改变状态栏的可视性

这种问题不知道大家是否遇见过,在此用两句话(时间紧迫,还得加班)分享下今天犯的错误我把状态栏的的可视性的改变写在了loadView 里面,然后就出现了调用了两次 loadView 和 viewDid ...

llvm.0.Introduction

1. LLVM 1.1 LLVM 是什么? A): an umbrella project "hosts and develops a set of close-knit low-level ...

Xcode手动内存管理笔记

创建对象过程 1.分配内存空间,存储对象 2.初始化成员变量 3.返回对象的指针地址对象在完成创建的时候,内部会自动创建一个引用计数器(retainCount)这是系统用来判断对象是否需要回收的唯一 ...

关于系统TCP连接的过多问题。

在日常的运维工程中经常遇到一些服务器的TCP连接过高,头疼不已.针对一些日常出现的问题,做一些总结,希望能抛砖引玉. 现在网站大部分都使用nginx和tomcat,利用nginx高效的使用系统资源以及 ...

[HNOI2001]矩阵乘积

题目描述输入输出格式输入格式: 第1行为:x y (第1行为两个正整数:x,y分别表示输出结果所在的行和列) 第2行为:m n o p(第2行给出的正整数表明A为m×n矩阵,B为n×o矩阵,C为o ...

swift详解之十五------------NSThread线程同步锁

NSThread线程同步锁上小节用NSThread实现读取网络图片 , 这节用NSThread 模拟一个卖票的例子 .用NSLock 或者NSCondition 锁定资源 var total = 1 ...

DatePickDialog与TimePickerDialog

写一个DateDialog的Demo, 步骤: 1.定义两个按钮,一个控制打开日期Dialog,一个控制打开时间Dialog. 2.通过new关键字创建DatePickerDialog,调用它们的sh ...

git archive命令详解

git archive可以将加了tag的某个版本打包提取出来,例如: git archive -v --format=zip v0.1 > v0.1.zip --format表示打包的格式,如z ...

【BZOJ2324】[ZJOI2011]营救皮卡丘有上下界费用流

[BZOJ2324][ZJOI2011]营救皮卡丘 Description 皮卡丘被火箭队用邪恶的计谋抢走了!这三个坏家伙还给小智留下了赤果果的挑衅!为了皮卡丘,也为了正义,小智和他的朋友们义不容辞的 ...

AJAX跨域问题总结

跨域是什么? 首先说下同源,同源策略是浏览器的一种安全策略,所谓同源是指,域名,协议,端口完全相同.而跨域就是不同源 ! 能够进行跨域的请求一般a,img,link[rel=stylesheet], ...

Option

package main.java.com.zte.entity.charts; import java.util.List; public class Option { private List&l ...

【Unity】8.2 GUI Style和GUISkin

分类:Unity.C#.VS2015 创建日期:2016-04-27 一.自定义GUI Control 功能控件 (Functional Control) 是游戏必要的,而这些控件的外观对游戏的美感非 ...

使用快盘当作SVN服务器地址

1.下载VisualSVN Server https://www.visualsvn.com/server/download/ 2.下载快盘同步盘安装. 3.在vs中配置svn仓库地址:该地址就是快盘 ...

在windows系统上安装Qt4.8.6

安装Qt时需要Qt库.编译器及调试器相互匹配.否则往往安装错误.以下时一组经验证的组合. QT库(qt-4.8.6): qt-opensource-windows-x86-mingw482-4.8.6 ...

【Daily Scrum】

DONE: Sport Style的风格配置. TODO:Algo完成对配置的“翻译”,以及对Render的输入. 完成整个系统的联调. 音乐的叠加. BurnDown:

白斑是不会自愈的

白斑一般情况下是不会自愈的,因此,一旦发现有类似白斑症状,白斑患者要抓紧来正规的白斑医院检测下,白斑治疗的越早康复的越快.白斑治疗要注意以下: 1.自己不要盲目用药,以免耽误治疗的关键时期.白斑是一种 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.