【软件分析与挖掘】A Comparative Study of Supervised Learning Algorithms for Re-opened Bug Prediction

摘要:

本文主要是评估多种监督机器学习算法的有效性,这些算法用于判断一个错误报告是否是reopened的,算法如下:

7种监督学习算法:kNN,SVM, SimpleLogistic,Bayesian Network, Decision Table, CARTand LWL;

3种集成学习算法: AdaBoost,Bagging and Random Forest。

实验结果表明:

评判的指标:accuracy scores和 F-Measure scores

Bagging  and  Decision  Table取得了比较好的性能。


S1 Introduction

一个典型的错误修复通常包括4个阶段:(以Bugzilla为例)

  1. 检测到软件中的一个bug,发布一个bug report,状态标记为“new”;

  2. bug triager指派每一个bug到与之相应的开发者,状态标记为“assigned”;
  3. 开发者阅读bug report,验证是否是一个bug,若是,则修复它,状态标记为“verified”;
  4. 若不是一个bug,或已修复完毕,则bug triager会关闭这个bug,状态标记为“closed”。

然而,很多时候,一个bug必须被重新开放,因为:

  1. 检测到bug时并没有提供大量的信息,导致开发者对bug的真正原因判断不准确;

  2. 尽管在先前的系统中已被修复,bug又重新出现在当前版本的系统中。

重新开放的bug修复起来更加耗时,成本越高,因为开发者必须重新审视问题。


S2   总体框架

由上图可以看到,有两个阶段:1)训练阶段;2)测试阶段。

在特征提取的过程中,把特征分类四类:

以下是算法中一些参数的设定:


S3   实验结果

数据集用的是之前Shihab所使用的,其中包含1530个bug report,其中246个为reopened。

使用十折交叉验证的方法,对数据集进行处理。

指标也和Shihab的相同: accuracy, re-opened precision (Precision(re)), reopened recall (Recall(re)),reopened F-Measure ((F-Measure(re)),

not reopened precision(Precision(nre)),  not  reopened  recall  (Recall(nre)),  and  not reopened F-measure (F-Measure(nre)).

这10种算法统一用weka实现。

主要的问题:

  1. 10种算法性能差异;

2.   集成学习算法的性能是否优于非集成学习算法?

结论表明,并没有直接关系。


S5   结论与未来工作方向

本文中算法都只采用唯一的参数,以后要尝试修改参数,来进行比较。

时间: 2024-08-07 05:05:33

【软件分析与挖掘】A Comparative Study of Supervised Learning Algorithms for Re-opened Bug Prediction的相关文章

【软件分析与挖掘】Multiple kernel ensemble learning for software defect prediction

摘要: 利用软件中的历史缺陷数据来建立分类器,进行软件缺陷的检测. 多核学习(Multiple kernel learning):把历史缺陷数据映射到高维特征空间,使得数据能够更好地表达: 集成学习(ensemble learning):使用一系列的分类器来减少由主类带来的分类误差,使具有更好的检测结果. 本文采用集成学习的方法构建一个多核分类器,集多核学习和集成学习的优点,提出方法: propose a multiple kernel ensemble learning (MKEL) appr

【软件分析与挖掘】An Empirical Study of Bugs in Build Process

摘要 对软件构建过程中所产生的错误(build process bugs)进行实证研究. 5个开源项目:CXF, Camel, Felix,Struts, and Tuscany. 把build process bugs 和 other bugs在3个维度比较:bug severity, bug ?x time, the number of ?les modi?ed to ?x a bug. 结论表明, Ⅰ.the fraction of build process bugs which are

【软件分析与挖掘】BOAT: An Experimental Platform for Researchers to Comparatively and Reproducibly Evaluate Bug Localization Techniques

摘要: 目前有许多的bug定位技术,但是,由于他们基于不同的数据集,而且有些数据集还不是公开的,甚至有些技术只应用于小数据集,不具有通用性,因此,不好比较这些技术之间的优劣. 因此,BOAT应运而生.BOAT是指:Bug lOcalization experimental plATform.这是一个web平台,开发者注册之后,可以在这上面上传他们的bug定位技术,因为在这个平台上测试的数据集是相同的,所以与其他的bug定位技术具有可比性. 地址:http://www.vlis.zju.edu.c

【软件分析与挖掘】Vision of Software Clone Management: Past, Present, and Future (Keynote Paper)

abstract: 代码克隆的综述 S1    INTRODUCTION AND MOTIVATION 代码克隆的利弊: 利:可以有效地去耦合,避免其他一些可能的错误: 弊:当被复制的那段code中带有bug的话,他的复制版本中都会含有bug. 但是代码克隆操作又是不可避免的,因此,代码克隆应该得到有效的检测和管理. S2    A SYSTEMATIC REVIEW OF CLONE LITERATURE Robert Tiras搜集了一个从1994~2013的论文库,主要分为以下几类: 1.

必应词典手机版(IOS版)与有道词典(IOS版)之软件分析【功能篇】

1.序言: 随着手机功能的不断更新和推广,手机应用市场的竞争变得愈发激烈.这次我们选择必应词典和有道词典的苹果客户端作对比,进一步分析这两款词典的客户端在功能和用户体验方面的利弊.这次测评的主要评测人是团队PM,另有其他同学给出建议. 2.软件分析与测评: 我们选择的是必应词典(version3.2.2 for ios)和有道词典(version 5.1.2 for ios) 2.1核心功能: 2.1.1词典功能: 众所周知词典的基本功能就是查词,在查词的基础上会给出相应的英文解释,例句以及用法

必应词典桌面版 --- 基于大学生用户群体的软件分析(与有道词典对比版 1功能篇)

1.概述 这篇博客会从大学生的角度来评测必应词典桌面版,以大学生的使用习惯来评判必应词典桌面版各项功能的优劣,并与同类软件进行横向分析,最终给出我们的评分.本次分析评测的主要评测员为博主本人,相关分析评测人员包括软件工程团队人员与他们的来自各个学校各个专业的同学们,人数共计23个,具有较好的普遍性. 2.软件分析与评测 本次评测我们会从功能.体验两大方面来对必应词典桌面版进行分析.必应词典版本:V3.5.0 for windows 桌面版     有道词典版本:PC版6.2 这篇博客是功能篇.

软件分析

产品 QQ音乐. 选择理由:一时间能想起来有bug些的软件不多.想游戏有英雄联盟之类.但是游戏的bug也不能叫bug,有些不过是网络的问题.有些被玩家开发出来便不是bug了.而QQ音乐作为一款比叫简单的应用,bug的原因之类倒也比较好解释.同时有很多可改进的地方. 第一部分 调研, 评测 安装简单,使用起来还不错. bug:歌词不匹配,有些音乐的歌词快些,有些慢些,有些可以调整,有些还不能调整. 听歌识曲失败率高,匹配不准确. 采访 采访对象:喜欢听歌,唱歌的同学 使用过程.1.打开app,搜索

第十团队:软件分析与用户体验分析

第十团队 1.概述 这篇博客会从大学生的角度来评测Microsoft Edge浏览器,以大学生的使用习惯来评判Microsoft Edge浏览器各项功能的优劣,并与同类软件进行横向分析,最终给出我们的评分.本次分析评测的主要评测员为博主本人,相关分析评测人员包括软件工程团队人员与他们的来自各个学校各个专业的同学们,人数共计23个,具有较好的普遍性. 目标用户:大学生 人数:23人 2.软件分析与评测 本次评测我们会从功能.体验两大方面来对Microsoft Edge浏览器和QQ浏览器进行分析.

第9组 软件分析与用户体验分析

必应输入法桌面版--基于大学生用户群体的软件评测与分析(与搜狗输入法对比版 ) 1.概述 这篇博客会从大学生的角度来评测必应输入法桌面版,以大学生的使用习惯来评判必应输入法桌面版和搜狗输入法桌面版,最终给出我们的评分.调研人数:7人,调查为卷的形式 2.软件分析与评测 本次评测我们会从功能.体验两大方面来对必应输入法桌面版进行分析.必应输入法:1698.04 for windows 桌面版     有道词典版本:9.2.0.2785 windows桌面版 2.1 功能 1.地名输入: 必应输入法