java的英文词频算法

java实现的英文词频算法，通常是采用单词树来实现的。使用java实现词频统计，为了统计词汇出现频率，最简单的做法是再建立一个map,其中，key是单词，value代表次数。将文章从头读到尾，读到一个单词就到Map里查一下，如果查到了则次数加一，没查到则放到map中。这样虽然代码简单，但却达不到想要的效果，通过性能的测试看出性能却非常差。从时间复杂度来说map时间复杂度是0（logn）,如果拿来高频词需要进行排序，即使在结构优化，但最后还是不能很大的性能提高。

时间： 2024-10-15 04:28:24

java的英文词频算法的相关文章

Hadoop的改进实验（中文分词词频统计及英文词频统计）（4/4）

声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不清楚配置可看<Hadoop之词频统计小实验初步配置> 3)本文由于过长,无法一次性上传.其相邻相关的博文,可参见<Hadoop的改进实验(中文分词词频统计及英文词频统计) 博文目录结构>,以阅览其余三篇剩余内容文档. (五)单机伪分布的英文词频统计Python&Streamin

（第二周）新英文词频统计

需求分析 1.两种读取文件的方法(建立两个类): 小文本输入.命令行输入文件名 2.进行词频统计 3.对结果进行排序并输出 https:https://git.coding.net/yanzouzhe/ywcptj.git SSH:[email protected]:yanzouzhe/ywcptj.git 功能实现 1.小文本输入读取文件 public class Article { /** * @param args */ String content;// 保存文章的内容 String[

组合数据类型练习，英文词频统计实例

1.由字符串创建一个作业评分表,做增删改查询统计遍历操作,例如查询第一个3分的下标,统计1分的同学有几个,3分的同学有几个,增删改查等等. 2.字典实例:建立学生学号成绩字典,做增删改查遍历操作. 3.列表,元组,字典,集合的遍历. 4.英文词频统计实例 news = '''When I was young I'd listen to the radio Waiting for my favorite songs When they played I'd sing along, It make

《结对-英文词频检测程序-需求分析》

英文词频检测程序原理:利用分隔符分词存入列表,然后从列表读出存入字典,键为词,值存放词的数量中文统计词频的话,得先分词后再进统计一篇英文文章各个单词出现的词频统计英文文章词频是很常见的需求,利用python实现.过滤掉除了 A-Z , a-z , ' 和 - 以外的符号结果输出为__CSV__格式

Java中的经典算法之冒泡排序(Bubble Sort)

Java中的经典算法之冒泡排序(Bubble Sort) 原理:比较两个相邻的元素,将值大的元素交换至右端. 思路:依次比较相邻的两个数,将小数放在前面,大数放在后面.即在第一趟:首先比较第1个和第2个数,将小数放前,大数放后.然后比较第2个数和第3个数,将小数放前,大数放后,如此继续,直至比较最后两个数,将小数放前,大数放后.重复第一趟步骤,直至全部排序完成. 举例说明:要排序数组:int[] arr={6,3,8,2,9,1}; 第一趟排序: 第一次排序:6和3比较,6大于3,交换位置:

Lua中table内建排序与C/C++/Java/php/等内排序算法的排序效率比较

Lua这类脚本语言在处理业务逻辑作为配置文件的时候方便省事但是在大量需要运算的地方就显得略微不足按照 Lua内建排序算法对比C/C++ PHP Java等的快速排序算法进行一下比较. 快速排序算法是基于冒泡排序,优化而来,时间复杂度T(n)=O(nLog2n) ,可见内部采用了二分策略 . 发现在LuaIDE LDT下直接运行效率要比通过C++加载运行Lua脚本效率高的多拿500W个数据排序来说 ,脚本如下同样的排序脚本Lua解释器的内置排序算法在LDT下,运行速度比通

组合数据类型和英文词频统计实例

1.列表实例:由字符串创建一个作业评分列表,做增删改查询统计遍历操作.例如,查询第一个3分的下标,统计1分的同学有多少个,3分的同学有多少个等. >>> ls=list('1231323232323131323') >>> ls ['1', '2', '3', '1', '3', '2', '3', '2', '3', '2', '3', '2', '3', '1', '3', '1', '3', '2', '3'] >>> ls.append('4'

结对-结对英文词频检测程序-需求分析

英文词频检测程序本软件具有以下功能:1.检测一个文档中出现过的所有单词及词频数2.检测一个文档中停用部分词后所有的单词数及词频数3.检测一个文档中和另外一个词表对比之后超纲的词及词频数,本功能可用于英语试卷的智能分析4.检测一个文档中各种词的变化形式,包括复数.不规则.过去分词.现在分词.比较级和最高级5.将词和词频导出为Excel及文本文件6.词典工具具有超强功能:提取某个长度的词.删除首字符串含某字符串的词.提取尾字符串为某字符串的词.删除尾字符含某字符串的词.提取出首字符串为某字符串的词

ubuntu命令行下java工程编辑与算法（第四版）环境配置

ubuntu命令行下java工程编辑与算法(第四版)环境配置 java 命令行 javac java 在学习算法(第四版)中的实例时,因需要安装配套的java编译环境,可是在编译java文件的时候总是出各种错误,特在此总结一下. ubuntu下java环境配置由于网上教程比较多,而且也较全面,特此摆放一个链接,跟着此教程总就可以配置好oracle的java jdk,如果想更加省事,直接在命令行下键入java,会提示安装各种开源java jdk,只需要一个命令即可: sudo apt-get i