词频统计及其效能分析

---恢复内容开始---

1)

学号：2017*****1027；
姓名：王益鑫；
码云仓库地址：https://gitee.com/shirt----2580/word_frequency；

2) 程序分析

1、打开并读取文件

【2、添加处理 bvffer代码，统计单词的频率，存放在word_freq

def process_buffer(bvffer):
if bvffer:
word_freq = {}
# 下面添加处理 bvffer代码，统计单词的频率，存放在word_freq
for item in bvffer.strip().split():
word = item.strip(punctuation+‘ ‘)
if word in word_freq.keys():
word_freq[word] += 1
else:
word_freq[word] = 1
return word_freq

3、设置输出函数，进行排序并输出Top 10 的单词

def output_result(word_freq):
if word_freq:
sorted_word_freq = sorted(word_freq.items(), key=lambda v: v[1], reverse=True)
for item in sorted_word_freq[:10]: # 输出 Top 10 的单词
print(item)

4、利用main方法输出

if __name__ == "__main__":
import argparse
parser = argparse.ArgumentParser()
parser.add_argument(‘dst‘)
args = parser.parse_args()
dst = args.dst
bvffer = process_file(dst)
word_freq = process_buffer(bvffer)
output_result(word_freq) 】由于电脑原因没有截图

3) 性能分析结果及改进。

程序运行命令、运行结果截图

用命令python word_freq.py Gone_with_the_wind.txt运行：

调用最多312次

最长用时0.003

4) 程序运行命令、运行结果截图以及改进后的程序运行命令及结果截图。电脑挺快的

5) 给出你对此次任务的总结与反思。

学习到了词频统计这个程序以及相关的一些代码，让我对Python这一编程语言了解的更多一点

---恢复内容结束---

原文地址：https://www.cnblogs.com/shirt----2580/p/10670540.html

时间： 2024-08-29 16:14:00

词频统计及其效能分析的相关文章

词频统计及效能分析

1. 博客开头给出自己的基本信息,格式建议如下: 学号:2017*****7254: 姓名:薛思语; 码云项目仓库:https://gitee.com/xsy990611/master/blob/master/word_freq.py 2. 程序分析,对程序中的四个函数做简要说明.要求附上每一段代码及对应的说明. 首先声明编码方式和导入string模块中的punctuation方法 # -*- coding: UTF-8 -*- from string import punctuat

词频统计的效能测试。

因为我的词频统计程序是拿Python语言编写的,所以在网上查找了适用于Python语音的效能测试工具. 1.介绍性能分析器 profiler是一个程序,用来描述运行时的程序性能,并且从不同方面提供统计数据加以表述.Python中含有3个模块提供这样的功能,分别是cProfile, profile和pstats.这些分析器提供的是对Python程序的确定性分析.同时也提供一系列的报表生成工具,允许用户快速地检查分析结果. Python标准库提供了3个不同的性能分析器: cProfile:推荐给大部

第二周-频统计效能分析

根据作业要求对个人项目词频统计进行效能分析工具:vs2015自带的效能分析工具: 1.第一次分析结果 string.split()方法和dictionary.contain()方法占比例较高; 由于水平问题暂时未想到解决方案,会继续探索,完善个人项目;

效能分析——词频统计的java实现方法的第一次改进

java效能分析可以使用新版本jdk自带的jvisualvm工具进行统计由于词频统计的运行在本人使用的机器上运行很快,无法被jvisualvm捕捉到线程的运行,所以捕捉的是eclipse的运行波动间接反映词频统计的效能捕捉到的快照如下: 词频统计处理的文件为WarAndPeace,大小3282KB约3.3MB,输出结果到文件在程序本身内开始和结束分别加入时间戳,差值平均为480-490ms.

组合数据类型练习，英文词频统计实例上

字典实例:建立学生学号成绩字典,做增删改查遍历操作. #创建一个空字典 dict={} s=dict print(s) #增加键值对(学号-成绩) s['001']=60 s['002']=70 s['003']=80 s['004']=90 print(s) #删除 s.pop('004') print(s) #修改 s['001']=69 print(s) #查找键是否存在 s.get('005','不存在') print(s) #便历 for i in s: print(i) 2.列表,元

组合数据类型练习、英语词频统计

1.字典实例:建立学生学号成绩字典,做增删改查遍历操作. di={'9':'19','29':'39','49':'59','69':'79','89':'99'} print(di) #创建字典 di['88']=89 print('增加一个学号为88的学生信息:',di) #增加 print('查找出学号29的学生成绩:',di['29']) #查找 del(di['9']) print('删除学号为9的学生信息:',di) #删除 di['59']=77 print('修改学号为59的学生

组合数据类型练习，英文词频统计实

1,建立学生学号成绩字典,做增删改查遍历操作. #创建 d={'01':73,'02':98,'03':66,'04':88,'05':73} d {'01': 73, '02': 98, '03': 66, '04': 88, '05': 73} #查找 >>> d['04'] 88 #插入 >>> d['06']='75' >>> d {'01': 73, '02': 98, '03': 66, '04': 88, '05': 73, '06':

八、组合数据类型练习，英文词频统计实例上

1.字典实例:建立学生学号成绩字典,做增删改查遍历操作. dict={'001':'66','003':'77','006':'88','009':'99'} print('学生学号成绩:',dict) dict['007']=96 print('增加学号为007的学生的成绩为96:',dict) dict.pop('001') print('删除学号为001的学生的记录:',dict) dict['007']=100 print('修改学号为007的学生的成绩为100:',dict) prin

作业8-组合数据类型练习，英文词频统计实例上

1.字典实例:建立学生学号成绩字典,做增删改查遍历操作. 总结列表,元组,字典,集合的联系与区别. 运行结果: 2.列表,元组,字典,集合的遍历,总结列表,元组,字典,集合的联系与区别. 运行结果: 区别: 列表用"[]"表示,列表是可变的数据类型,即这种类型是可以被改变的,并且列表是可以嵌套的. 元组用"()"表示,元祖和列表十分相似,不过元组是不可变的,但也可以嵌套. 字典用"{}"表示,注意它们的键/值对用冒号分割,而各个对用逗号分割,所有

猜你喜欢

TBB 学习笔记

#include <tbb/task_scheduler_init.h> #include <tbb/blocked_range.h> #include <tbb/par ...

游戏开发观念又转变了-需要学习更多

来西山居上班有一段时间了.像我这种从小公司过来的,除了食堂的饭菜比较好吃外,也没有发现大公司有什么特别的地方.9.25我们就开始放假了,很多功能单的截至日期都是9.25.过去的这一周我都是在赶进度.因 ...

.net 实现 URL重写，伪静态（方法一）

一,获得Mircosoft URLRewriter.dll(注意:此dll文件大小约为20KB,网上有8Kb的是不完整的文件,会报错) 二,在项目中该dll文件:添加引用(可以直接拷贝放入Bin文件夹 ...

Hbase伪分布式安装

前面的文章已经讲过hadoop伪分布式安装,这里直接介绍hbase伪分布式安装. 1. 下载hbase 版本hbase 1.2.6 2. 解压hbase 3. 修改hbase-env.sh 新增如下内 ...

javascript的单线程异步机制探究

JavaScript的同步异步模式 JavaScript的语言执行环境都是单线程.单线程就是想排队那样任务需要按顺序一个一个的完成.这种模式的好处是实现起来简单,但是坏处就是如果队列中有一个任务耗费时 ...

BZOJ 1816 扑克牌(二分)

由于答案具有单调性,考虑二分答案并验证. 如果能凑齐x堆,因为每个joke在一个牌堆里最多只能用一次,则至多只能用min(x,m)个joke. 对于每个牌,如果这个牌的总数小于x,用joke补齐剩下的 ...

Thread starting during runtime shutdown问题的解决

注:本内容仅是工作笔记,用于备忘,未贴出具体代码.描述不清请见谅. ================================================================== ...

Hunting for top class Java developers

Requirement: You MUST have excellent communication skills in English (both verbal and oral) Real tal ...

（转）反射发送实战（－）InvokeMember

反射是.net中的高级功能之一,利用反射可以实现许多以前看来匪夷所思的功能,下面是我看了<Programming C#>(O'Reilly)之后对于反射的一点实践,本想直接做个应用程序来说 ...

Eclipse 安装 SVN 的在线插件

这是继上次svn 客户端与服务器安装后的如何在Eclipse 环境下在线安装 SVN插件,我的Eclipse版本是4.50 SVN的在线安装下面为大家提供SVN 的在线安装教程.下面是安装的详细过 ...

centos6.7上使用nginx实现负载均衡！

实现环境: vmware workstation 11 centos6.7的系统下 nginx服务器:192.168.239.136 防火墙关闭 setenforce 0 apache服务器1: ...

Linux的cron与%

这个cron不能执行: * * * * * /bin/echo `/bin/date +"%Y-%m-%d-%T"` >> /home/adminuser/test.t ...

切图总结

前些日子仿了优酷的首页,中间遇到一些问题,积累了点经验,做个总结. 1. 需要最先明白的两点不要只是无脑的切图,要去体会设计师的意图,不仅仅是还原设计稿,而且要尽可能去还原设计师的设计理念. 切图的 ...

只能开启一个子窗体

只能开启一个子窗体例如有form1,form2 form1中 public static form2 f2; if (f2 == null) { f2 = new form2();f2.Show( ...

北京新房成交10月下旬暴增二手房均价年内首次微涨

北京新房成交10月下旬暴增二手房均价年内首次微涨行业动态北京晨报[微博]杨奕2014-11-04 07:19 我要分享 4 [摘要]新政出台,无论是新房还是二手房,成交量肯定会上升.不过对于一手房 ...

QT笔记 -- (6) opengl

参考 http://blog.csdn.net/myths_0/article/details/24431597 用glut绘制一个茶壶一句话,继承QGLWidget,实现下面三个函数,用子类定义窗 ...

获取activity上所有指定类型的控件

Android获取所有指定类型的子控件,这样就不需要逐个使用findViewByID来获取控件,来达到控制状态的目的了. /** * 获取所有指定类型的子控件 * @param T * @return ...

一个备份任务分发的Golang实现原型

前段在玩协程时跟着libtask的作者Russ Cox转到Golang了,一堆重量级大牛们想出来的东西就是不同,思路非常特别,和常用的差别有点大, 但非常注重实用,减少了一堆的语法糖后,让人重新思考, ...

余世维《成功经理人讲座》之重要又紧急的事情

前一段时间听过余世维博士的<成功经理人讲座>,就模仿余世维所讲的将一天要完成的事情分为四个层次:一是重要而且紧急的事情:二是重要但不紧急的事情:三是不重要但紧急的事情:四是不重要又不紧急的 ...

SQL Server 审核（Audit）-- 审核与应用程序设计架构

SQL Server 审核(Audit)-- 审核与应用程序设计架构审核是在数据库服务器端进行监控日志,搭配应用程序的设计架构,例如客户端-服务器架构(Client-Server).多层次架构(Mu ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.019 s.