java的英文词频算法

java实现的英文词频算法,通常是采用单词树来实现的。使用java实现词频统计,为了统计词汇出现频率,最简单的做法是再建立一个map,其中,key是单词,value代表次数。将文章从头读到尾,读到一个单词就到Map里查一下,如果查到了则次数加一,没查到则放到map中。这样虽然代码简单,但却达不到想要的效果,通过性能的测试看出性能却非常差。从时间复杂度来说map时间复杂度是0(logn),如果拿来高频词需要进行排序,即使在结构优化,但最后还是不能很大的性能提高。

时间: 2024-10-15 04:28:24

java的英文词频算法的相关文章

Hadoop的改进实验(中文分词词频统计及英文词频统计)(4/4)

声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不清楚配置可看<Hadoop之词频统计小实验初步配置> 3)本文由于过长,无法一次性上传.其相邻相关的博文,可参见<Hadoop的改进实验(中文分词词频统计及英文词频统计) 博文目录结构>,以阅览其余三篇剩余内容文档. (五)单机伪分布的英文词频统计Python&Streamin

(第二周)新英文词频统计

需求分析 1.两种读取文件的方法(建立两个类):  小文本输入.命令行输入文件名 2.进行词频统计 3.对结果进行排序并输出 https:https://git.coding.net/yanzouzhe/ywcptj.git SSH:[email protected]:yanzouzhe/ywcptj.git 功能实现 1.小文本输入读取文件 public class Article { /** * @param args */ String content;// 保存文章的内容 String[

组合数据类型练习,英文词频统计实例

1.由字符串创建一个作业评分表,做增删改查询统计遍历操作,例如查询第一个3分的下标,统计1分的同学有几个,3分的同学有几个,增删改查等等. 2.字典实例:建立学生学号成绩字典,做增删改查遍历操作. 3.列表,元组,字典,集合的遍历. 4.英文词频统计实例 news = '''When I was young I'd listen to the radio Waiting for my favorite songs When they played I'd sing along, It make

《结对-英文词频检测程序-需求分析》

英文词频检测程序 原理:利用分隔符分词存入列表,然后从列表读出存入字典,键为词,值存放词的数量中文统计词频的话,得先分词后再进 统计一篇英文文章各个单词出现的词频 统计英文文章词频是很常见的需求,利用python实现.过滤掉除了 A-Z , a-z , ' 和 - 以外的符号结果输出为__CSV__格式

Java中的经典算法之冒泡排序(Bubble Sort)

Java中的经典算法之冒泡排序(Bubble Sort) 原理:比较两个相邻的元素,将值大的元素交换至右端. 思路:依次比较相邻的两个数,将小数放在前面,大数放在后面.即在第一趟:首先比较第1个和第2个数,将小数放前,大数放后.然后比较第2个数和第3个数,将小数放前,大数放后,如此继续,直至比较最后两个数,将小数放前,大数放后.重复第一趟步骤,直至全部排序完成. 举例说明:要排序数组:int[] arr={6,3,8,2,9,1}; 第一趟排序: 第一次排序:6和3比较,6大于3,交换位置:  

Lua中table内建排序与C/C++/Java/php/等内排序算法的排序效率比较

Lua这类脚本语言在处理业务逻辑作为配置文件的时候方便省事 但是在大量需要 运算的地方就显得略微不足   按照 Lua内建排序算法 对比C/C++ PHP Java等的快速排序算法进行一下比较. 快速排序算法是基于冒泡排序,优化而来,时间复杂度T(n)=O(nLog2n)  ,可见内部采用了二分策略 . 发现在LuaIDE LDT下直接运行效率要比 通过C++加载运行Lua脚本效率高的多  拿500W个数据排序 来说  ,脚本如下 同样的排序脚本Lua解释器的内置排序算法在LDT下,运行速度比通

组合数据类型和英文词频统计实例

1.列表实例:由字符串创建一个作业评分列表,做增删改查询统计遍历操作.例如,查询第一个3分的下标,统计1分的同学有多少个,3分的同学有多少个等. >>> ls=list('1231323232323131323') >>> ls ['1', '2', '3', '1', '3', '2', '3', '2', '3', '2', '3', '2', '3', '1', '3', '1', '3', '2', '3'] >>> ls.append('4'

结对-结对英文词频检测程序-需求分析

英文词频检测程序 本软件具有以下功能:1.检测一个文档中出现过的所有单词及词频数2.检测一个文档中停用部分词后所有的单词数及词频数3.检测一个文档中和另外一个词表对比之后超纲的词及词频数,本功能可用于英语试卷的智能分析4.检测一个文档中各种词的变化形式,包括复数.不规则.过去分词.现在分词.比较级和最高级5.将词和词频导出为Excel及文本文件6.词典工具具有超强功能:提取某个长度的词.删除首字符串含某字符串的词.提取尾字符串为某字符串的词.删除尾字符含某字符串的词.提取出首字符串为某字符串的词

ubuntu命令行下java工程编辑与算法(第四版)环境配置

ubuntu命令行下java工程编辑与算法(第四版)环境配置 java 命令行 javac java 在学习算法(第四版)中的实例时,因需要安装配套的java编译环境,可是在编译java文件的时候总是出各种错误,特在此总结一下. ubuntu下java环境配置 由于网上教程比较多,而且也较全面,特此摆放一个链接,跟着此教程总就可以配置好oracle的java jdk,如果想更加省事,直接在命令行下键入java,会提示安装各种开源java jdk,只需要一个命令即可: sudo apt-get i