结对-英文词频检测-结对项目总结

课后作业-结对编程项目总结
结对编程作业-英文词频检测
结对成员:杨琳、刘文帅
    关于该项目我们一开始是查阅了大量的资料,先制定了计划分步实施,期间遇到了太多困难和波折,很多想要实现的效果通过自己能力写出来的代码并不能实现,所以我们又查阅大量资料,找了老师和一些有经验的同学,让他们交我们如何实现,也借鉴了很多前人的文件,最后我们完成到现在这样。我们从一开始的设想到现在的实际代码,中间经历了太多的波折付出了太多的时间和精力。
    最初的设计,我使用了MYSQL数据库来存储每一个单词的词频变化,最终寄希望于在数据库中生成一个每个单词的词频统计数据。
当时建立了一个表,该表极为简单,只有两列:单词,词频。这样做显然也是很简单的,我只需要做 查找、修改和更新的操作。而大部分的程序就不需要我自己写了。
我来呈现一下当时的想法:
1.对文本中非英语的一切字符进行过滤,只留下英语和必要的空格(标点符号换成空格,空格能够区分不同单词,同时对于英语中特别的字符要加以处理)
2、过滤出单词
3、对单词首先在数据表中“查找”操作,如果存在,则更新值,如果不存在,则插入值。
4、寻找合适的呈现方法,将最终的数据呈现出来,表格、文件等
  在实施过程中,遇到了一个棘手的问题,在对单个年份的文档进行处理的时候是可以的,但是对于数十年的文档处理时候,会报一个数据库连接池到达最大连接数的错误。
  在该错误出现后,对该错误进行反复测试,发现为可重现错误,首先对自己的程序进行检查,尽量再次优化减少存储数据库的次数,我修改了数据库,但最终失败了。
 
接下来总结了一下我们的思路:
1.文本读取模块(txt文本)
2.以空格为分隔符的txt文档
3.过滤模块(不过滤字母,单引号和-符)
4.统计模块
5.输出模块(CSV文件)
实现方式
[x] 使用open函数, 将数据整理为列表
[x] 使用re包, 通过简单的正则过滤列表
[x] 遍历列表, 使用字典和sort函数存储统计
[x] 输出模块, 采用代码
项目托管平台地址:https://gitee.com/w789369/YingWenCiPinJianCe/blob/master/text.py
通过这次的结队编程发现了自己在对代码的实际应用里有许多问题,对代码的理解还不够。思路不够清晰,经常要想很久再写下一步。通过这次我想以后更多机会尝试使用这些代码,要很熟练的掌握它们。

时间: 2024-08-29 15:15:57

结对-英文词频检测-结对项目总结的相关文章

《结对-英文词频检测程序-需求分析》

英文词频检测程序 原理:利用分隔符分词存入列表,然后从列表读出存入字典,键为词,值存放词的数量中文统计词频的话,得先分词后再进 统计一篇英文文章各个单词出现的词频 统计英文文章词频是很常见的需求,利用python实现.过滤掉除了 A-Z , a-z , ' 和 - 以外的符号结果输出为__CSV__格式

结对-结对英文词频检测程序-需求分析

英文词频检测程序 本软件具有以下功能:1.检测一个文档中出现过的所有单词及词频数2.检测一个文档中停用部分词后所有的单词数及词频数3.检测一个文档中和另外一个词表对比之后超纲的词及词频数,本功能可用于英语试卷的智能分析4.检测一个文档中各种词的变化形式,包括复数.不规则.过去分词.现在分词.比较级和最高级5.将词和词频导出为Excel及文本文件6.词典工具具有超强功能:提取某个长度的词.删除首字符串含某字符串的词.提取尾字符串为某字符串的词.删除尾字符含某字符串的词.提取出首字符串为某字符串的词

结对--英文词频检测程序--需求分析

根据程序名称可预想程序需要实现以下基本功能: 1.首先需要对该程序输入一段英文文本,该文本词数大于等于1个. 2.然后输入想要查找词频的英文单词. 3.点击回车键后运行程序,显示数字即为该单词出现的次数. 延伸后所能想到的功能: 1.输入一段英文文本,程序需要很壮健,能读取容纳英文原版<哈利波特>10万词以上的文章.(只是举个例子) 2.输入查找的词频,一次性可以输入多个想要查找的单词,在实际项目中会提高效率. 3.统计该文本所有单词数量,计算所要查找的单词频率,即为该单词的词频数.直接百分比

《结对-英文词频统计-结对项目总结》

结对项目心得: 完成之后感觉实际耗时应该比原计划少一些,查找相关方法.不过感觉python还是相对比较容易上手的,有这么多可以直接调用的方法.这一部分大概用时三个半小时. 其他部分的工作用时与预计没有太大差距. 最省时间的是程序没有出现太大问题,所以大大减少了时间. 最主要的是两人合作.

结对-英文词频分析-结对项目总结

结对成员: 学号: 2015035107109 学号: 2015035107059 结对编程技术是指两位程序员坐在同一工作台前开发软件.与两位程序员各自独立工作相比,结对编程能编写出质量更高的代码. 第一次尝试结对编程,让我有了很大的收获,自己跟着他人的思路去敲代码,在根据自己的经验,共同变成高质量代码让我受益匪浅, 学习他人思路,丰富了自己的思想,让他人口述流程,可以锻炼自己的思路,已经沟通能力,互利共赢.

结对-英文词频检测程序-最终程序

结对成员:刘文帅,杨琳 学号:2015035107005 学号:2015035107009 程序运行方法:python 程序运行示例及运行结果: 其他附加内容:通过查阅资料完成了代码

结对-英文词频检测10.13

项目托管平台地址:https://gitee.com/w789369/YingWenCiPinJianCe/blob/master/text.py 功能测试:统计单词 功能,测试方法: def getstr(word,count,allwordnum): countstr=word+'--------'+str(count)+'--------'+str(allwordnum) 其他补充说明: 还在完善中....

结对-英文词频检测-开发环境搭建过程

由于本人第一次接触本软件,所以以下内容均来自百度整理后. 安装jdk1.8 下载网址: http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 根据自己电脑情况选择需要下载的内容并安装 配置环境   右键点击我的电脑 ->属性->高级系统设置->环境变量 系统变量分别添加变量名: CLASSPATH变量值:C:\Program Files\Java\jdk1.8.0_71\li

结对-英文词频检测-开发过程

https://gitee.com/Marly/codes/gj1l0vt7niwryzp6ubqhx39 原理:利用分隔符分词存入列表,然后从列表读出存入字典,键为词,值存放词的数量 一:导出模块编写代码 二:统计单词 三:文本处理 四:输出并退出