word count项目情况

项目分组情况:我(潘萧臣)、鲍中飞

基本功能模块,实现文章词频统计,每个人独自完成编写语言为C语言和python3.7.0,主要实现英文单词词数统计。

拓展功能,在每个人完成的基础上实现网页内容爬取操作,将爬下来的内容进行词频统计,网页爬虫方面,还未进行详细了解,自己初步打算用python中的request库实现爬取内容。

如果项目进展顺利,可以增加词云等功能。

项目计划:在1月10号之前完成基础功能模块的代码编写。后续时间每天拿出不少于1小时学习python编程

代码规范:参考此篇博文,并且了解python之禅的内容

https://www.cnblogs.com/pflee/p/4337573.html

PSP表格

原文地址:https://www.cnblogs.com/panxiaochen/p/10238179.html

时间: 2024-08-30 17:33:53

word count项目情况的相关文章

word count 项目总结

一.github地址 https://github.com/hyt1022/wordcount 二.PSP表格 PSP2.1 PSP阶段 预估耗时 (分钟) 实际耗时 (分钟) Planning 计划 30 30 · Estimate · 估计这个任务需要多少时间 30 30 Development 开发 840 1200 · Analysis · 需求分析 (包括学习新技术) 60 60 · Design Spec · 生成设计文档 60 60 · Design Review · 设计复审 (

软件工程第三个程序:“WC项目” —— 文件信息统计(Word Count ) 命令行程序

软件工程第三个程序:“WC项目” —— 文件信息统计(Word Count ) 命令行程序 格式:wc.exe [parameter][filename] 在[parameter]中,用户通过输入参数与程序交互,需实现的功能如下: 1.基本功能 支持 -c 统计文件字符数支持 -w 统计文件单词数支持 -l 统计文件总行数 2.拓展功能 支持 -a 返回高级选项(代码行 空行 注释行)支持 -s 递归处理符合条件的文件 3.高级功能 支持 -x 程序以图形界面与用户交互 [filename] 是

Word Count程序(C语言实现)

Word Count 程序 GitHub地址:https://github.com/MansonYe/Word-Count 一.项目简介 Word Count 是用以统计文本文件的字符数.单词数和行数的常用工具. 二.功能分析及实现情况 · 基本功能: 统计file.c的字符数(实现) 统计file.c的单词数(实现) 统计file.c的行数(实现) · 拓展功能: 递归处理目录下符合类型的文件(实现) 显示代码行.空行和注释行的行数(实现) 支持通配符(* , ?)(实现) · 高级功能: 支

Learn ZYNQ(10) – zybo cluster word count

1.配置环境说明 spark:5台zybo板,192.168.1.1master,其它4台为slave hadoop:192.168.1.1(外接SanDisk ) 2.单节点hadoop测试: 如果出现内存不足情况如下: 查看当前虚拟内存容量: free -m cd /mnt mkdir swap cd swap/ 创建一个swap文件 dd if=/dev/zero of=swapfile bs=1024 count=1000000 把生成的文件转换成swap文件 mkswap swapfi

mac上eclipse上运行word count

1.打开eclipse之后,建立wordcount项目 package wordcount; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.had

课堂练习 Word count

1. 团队介绍 团队成员:席梦寒,胡琦 2. 项目计划 我们选第一.二个功能点进行编程. 具体计划: (1).首先爬取网站内容及网页长度: (2).对爬取的文件内容进行word count操作: (3).对选定词语出现频率进行统计. 3. 环境配置 编程语言:python 代码规范: 一.命名规约 1.[强制]所有编程相关命名均不能以下划线或美元符号开始,也不能以下划线或美元符号结束.反例: _name / __name / $Object / name_ / name$ / Object$ 2

word count程序,以及困扰人的宽字符与字符

一个Word Count程序,由c++完成,有行数.词数.能完成路径下文件的遍历. 遍历文件部分的代码如下: void FindeFile(wchar_t *pFilePath) { CFileFind finder; CString Finddir; Finddir.Format(pFilePath); BOOL ret = finder.FindFile(Finddir); while (ret) { ret = finder.FindNextFile(); CString strPath

Hadoop AWS Word Count 样例

在AWS里用Elastic Map Reduce 开一个Cluster 然后登陆master node并编译下面程序: import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import o

通过简单的Word Count讲解MapReduce原理以及Java实现

MapReduce原理: MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果.简单地说,MapReduce就是"任务的分解与结果的汇总". 在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker:另一个是TaskTracker,JobTracker是用于调度工作的,TaskTracker是用于执行工作的.一个Hadoop集群中