一、引言
1.1 测试目的
(1)测试爱码室团队Alpha版本爬虫的功能性、效率性和可靠性。
(2)解决更新测试出的Alpha版本爬虫的Bug。
(3)统计数据进行记录,方便日后与Beta版本比对。
1.2 编写目的
(1)总结和测试Alpha阶段开发任务的测试以及分析测试结果。
(2)描述系统是否符合Alpha的版本需求。
1.3 测试人员
符美潇、周文祥。
1.4 测试周期
2015/11/9-2015/11/15。
二、测试概要
2.1 功能及性能测试中发现的额外bug
a)抓取页面超出要求数目。
b)类型判断错误,把含有pdf的URL判定为pdf类型的网页。
c)专门性文档的爬取任务无响应。
d)通用性爬取只识别html和pdf类型。
e)文件存储位置异常。
f)下载页面数和更新的数据库项数不同。
g)页面信息存入数据库而没有把文件下载到本地。
h)线程异常(未解决)
i)数据库连接异常(未解决)
2.2 测试计划
2.2.1 功能性
(1)系统实现的主要功能,包括根据用户选择的seed输入方式进行种子输入和需要爬取的网页数目对相关URL进行爬取。
(2)系统实现的次要功能,包括显示当前爬取进度,显示当前爬取网页的URL。
(3)URL输入字段必须不含有特殊字符。
2.2.2 可靠性
(1)操作按钮提示信息正确性,一致性,可理解性。
(2)限制条件提示信息正确性,一致性,可理解性。
(3)输入方式可理解性。
(4)中文界面下数据语言与界面语言的一致性。
2.2.3 可使用性
系统必须在实现用户需求的层次上实现比较稳定的运行。同时和用户的操作系统兼容,保证用户可以稳定地使用。
2.2.4 安全性
系统在爬取数据的过程中应该保证用户的信息和数据的安全。
2.2.5 性能
新版本的爬虫应该爬取效率、速度更高。
三、测试内容和执行情况
3.1 功能测试
功能 | 基本要求 | 是否通过 |
数据库连接 | 通过UI界面能够连接上数据库,并可以进行相关的操作 | √ |
URL接收 | 能够通过输入或文件接收种子URL | √ |
通用型爬取 | 能够爬取系统能接受的所有类型的文件,并在数据库中记录相关信息,把文件下载到本地 | √ |
专门型爬取 | 只爬取特定的文件类型,并在数据库中记录相关信息,把文件下载到本地 | √ |
问答页爬取 | 爬取问答页并进行分类后存储在本地 | √ |
固定分析功能 | 能够信息的显示分析结果 | √ |
自定义分析功能 | 能够根据用户所设置的自定义关键字对爬取的文件进行分析 | √ |
进度表的显示 | 进度表能够实时地反应爬取状态 | √ |
爬取关键字设定 | 爬虫能够过滤掉不含有关键字的网页 | √ |
3.2 性能测试
3.2.1 通用爬取耗时对比
测试序号 | 爬取方式:URL地址 | 网页数目 | 老版本花费时间(ms) | 新版本花费时间(ms) |
1 | 通用型爬取: http://ask.csdn.net | 100 | 64276 | 47320 |
2 | 通用型爬取:http://q.cnblogs.com | 100 | 21170 | 10006 |
3 | 通用型爬取: http://www.dewen.io | 100 | 37152 | 15880 |
3.2.2 通用爬取极限网页(TEST数据还没交上,待完善)
测试序号 | URL | 极限爬取网页数 | 耗时(ms) |
1 | http://www.eecs.berkeley.edu/Pubs/TechRpts/ | 4798 | 5981392 |
2 | |||
3 | |||
4 | |||
5 | |||
6 | |||
7 |
3.3 资源占用
CPU占用率(%) | 内存占用() |
40%~80% | 350MB~600MB |
3.4 可靠性
测试内容 | 基本要求 | 是否通过 |
掉电 | 客户机掉电或强行关机后重启机器,不丢失数据。 | √ |
文件下载 | 在爬虫程序意外或者人为中断时,已经爬取到的内容已经保存。 | √ |
爬取内容分类 | 爬虫程序获取资源后进行恰当分类,以保证数据的合理可靠 | √ |
3.5 安全性
测试内容 | 基本要求 | 是否通过 |
数据库安全性 | 数据库对于用户而言仅有查询的权限而没有修改、删除等权限 | √ |
爬取到的信息的安全性 | 所爬取到的信息放在特定的路径内,只有指定用户可以提取 | √ |
用户权限 | 所有授权用户是否能在所授权限下进行工作,不容许超权限 | × |
3.6 易用性
测试内容 | 基本要求 | 是否通过 |
易安装性 | 安装参数给出默认值或提示,需要用户干预的地方尽量少,操作方便。 | √ |
简易界面 | 在参考功能使用说明书的前提下,能很轻松的使用该程序 | √ |
操作简易 | 直接通过双击图标即可运行爬虫程序 | × |
数据提取方便 | 通过重定向存储文件路径,用户可以更加方便的找到保存资源的文件路径 | √ |
四、缺陷的统计与分析
缺陷类型 | 具体说明 | 原因分析 |
爬取动作异常 | 正在进行爬取动作时,会有一些异常产生 | 没有对异常充分定位并向开发者反馈错误信息。需要对这些异常进行处理,并把错误信息抛出给开发者 |
UI操作 | UI的非法操作会使程序卡死 | 监听器没有专门对UI的非法输入进行处理,爬虫对用户的容错性小。 |
五、测试结论
爱码室Alpha版本的爬虫系统在多方面都进行一定的测试。大致进行的测试,包括内容总结如下:功能、可靠性、安全性、可使用性四个方面进行了全面、严格、规范的测试。测试结果表明:爬虫达到Alpha版本发布的要求,并具有以下特点:
1、系统架构先进、简单,且相比于原来的版本更加优化。
2、功能丰富度有所提高,如果继续开发可以针对安全性进行进一步开发。
3、系统可靠性高,且相比于原来版本而言,分类更加明晰。对客户机掉电或强行关机后重启机器、网络异常中断。有完善的数据校验机制,对用户输入不符合要求的数据,给出了简洁、准确的提示信息,必要时给出了帮助。而同时,数据库内信息分类明晰,有利于用户合理调用数据库信息。
测试结论:通过。