阅读论文《基于神经网络的数据挖掘分类算法比较和分析研究》 安徽大学 工程硕士:常凯 (二)数据集的介绍

数据集的介绍

1.“鲍鱼年龄”数据集(Abalone Data Set)。是通过预测鲍鱼环,也就是鲍鱼的年轮,来推断鲍鱼寿命。该数据集来自于UCI(University of California,Irvine,UCI)提出的用于机器学习的数据库。

共有八个属性分别是:性别、长度、直径等

具体的属性的介绍

方法一:利用BP

方法使用ELM

方法三:使用SVM

我:通过Xmind函数发现其实对一种新的方法而言函数都是集成可以直接用的,我们要做的就是知道每个函数的具体的意义,以及知道大致的流程。理解是一切的基础,也是我们可以自由的使用函数的基础

2.“是否有心脏病”集的介绍

(Statlog (Heart)Data Set)是通过研究年龄,性别,血压等属性的值来判断被访者是否有心脏病。

具体的属性的特征:

chest pain                                     胸痛

resting blood pressure                           静息血压

serum cholestoral                               血清胆汁酸

fasting blood sugar                              空腹血糖

resting electrocardiographic results                 休息心电图结果

maxinum heart rate achieved                      最大心跳速率

exercise induced angina                           锻炼诱发心绞痛

oldpeak

the slope of the peak exercise ST segment             锻炼高峰期ST段的斜率

number of major vessels                           血管容量

thal                                            塔尔

输入:13个属性   输出:是1,否0

分别是三中方法处理:

3.“癌症患者生存期”集的介绍

(Haberman‘s Survival Data Set’),是通过岁病人手术时的年龄,手术年份,检测到阳性腋窝淋巴结数三个方面,来判断病人的生存状况

三个属性分别为:病人手术时的年龄,病人手术的年份,腋窝淋巴结阳性检测出的数量

病人的生存状况:1代表病人存活了五年甚至更久,2代表并没没活过5年

输入:三个属性

输出:两个标签

4.“小麦种子集”(Seed Data Set)

通过不同的三种小麦种子(Kama、Rosa、Canadian)的物理的特性进而去判断种子的类型

具体的属性:

Perimeter                                     周长

Compactness                                  紧凑

length of kernel                                内核长度

width of kernel                                 内核宽度

asymmetry coefficient                           不对称系数

length of kernel groove                           谷纹长度

输入:以上的这些属性

输出:就是判别属于那种类型

5.“印第安人是否有糖尿病”

(pima Indians Diabetes Data Set)是通过研究八个数值类型的属性然后的出相应的结论的判别。

数据集的最后一个部分为分类的属性:0表示没有糖尿病;1表示有

Plasma glucose concentration a 2 hours in an oral glucose tolerance test

在口服葡萄糖耐量试验中血浆葡萄糖浓度为2小时

Diastolic blood pressure      舒张压

Triceps skin fold thickness       三头肌皮褶厚度

2-hours serum insulin           2小时血清胰岛素

Body mass index               体重指数

Diabetes  pedigree function     糖尿病谱系功能

6.“普葡萄酒种类”

(Wine Data Set)记录的是在意大利同一个区域里三种不同品种的葡萄酒的化学成分分析的结果。

具体的属性为:

时间: 2024-10-10 13:40:49

阅读论文《基于神经网络的数据挖掘分类算法比较和分析研究》 安徽大学 工程硕士:常凯 (二)数据集的介绍的相关文章

数据挖掘分类算法--KNN

实验中使用的数据依然是UCI上的Iris,实验中分别有样本数据和测试使用的数据,分别如下: 样本数据是分别算则iris中三类数据各30个: 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa 5.4,3.9,1.7,0.4,Iris-setosa 4.6,3.4,1.4,

Mahout 分类算法

实验简介 本次课程学习了Mahout 的 Bayes 分类算法. 一.实验环境说明 1. 环境登录 无需密码自动登录,系统用户名 shiyanlou 2. 环境介绍 本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到桌面上的程序: XfceTerminal: Linux 命令行终端,打开后会进入 Bash 环境,可以使用 Linux 命令: Firefox:浏览器,可以用在需要前端界面的课程里,只需要打开环境里写的 HTML/JS 页面即可: GVim:非常好用的编辑器,最简单的用

Netflix工程总监眼中的分类算法:深度学习优先级最低

Netflix工程总监眼中的分类算法:深度学习优先级最低 摘要:不同分类算法的优势是什么?Netflix公司工程总监Xavier Amatriain根据奥卡姆剃刀原理依次推荐了逻辑回归.SVM.决策树集成和深度学习,并谈了他的不同认识.他并不推荐深度学习为通用的分类技术. [编者按]针对Quora上的一个老问题:不同分类算法的优势是什么?Netflix公司工程总监Xavier Amatriain近日给出新的解答,他根据奥卡姆剃刀原理依次推荐了逻辑回归.SVM.决策树集成和深度学习,并谈了他的不同

通用高校排课算法研究----3.基于时间片优先级排课算法

通用高校排课算法研究----3.基于时间片优先级排课算法 3   基于时间片优先级排课算法描述与分析 排课问题实质上是时间.教师.班级.教室.课程这五维关系的冲突问题,要合理的解决这个问题首先要了解排课中的一些基本原则以及排课的一些基本要求. 3.1排课中的基本原则 在课程的编排中应遵循一定的规则, 只有按照基本规则来进行课程的编排才能够减少冲突的发生, 这些基本规则主要有以下几条: 1) 同一班级的学生在同一时间(某些特定的选修课时间除外) 不能安排两门课程 2) 同一教师在同一时间不能安排两

论文研读1.0 基于神经网络与因子分解机的点击率预估应用研究(陈检)

基于神经网络与因子分解机的点击率预估应用研究(陈检) 摘要 长久以来广告点击预估率问题属于用户行为预测研究问题,其主要解决是特征工程问题. 深度神经网络主要提取高阶特征,因子分解机提取二阶以下特征 注改:因子分解机实际应用中受限于计算复杂度,一般只考虑到2阶交叉特征(FM预测时间复杂度O(kn),FFM预测时间复杂度O(kn^2),FM提取低阶组合特征,Deep提取低阶组合特征,同时学习低阶和高阶的组合特征. FM与Deep共享同样的输入. 通过对比试验发现:基于深度神经网络和因子分解机的组合模

数据挖掘中分类算法小结

数据挖掘中分类算法小结 数据仓库,数据库或者其它信息库中隐藏着许多可以为商业.科研等活动的决策提供所需要的知识.分类与预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集合或预测未来数据趋势的模型.分类方法(Classification)用于预测数据对象的离散类别(Categorical Label);预测方法(Prediction )用于预测数据对象的连续取值. 分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强

分类算法简介 基于R

最近的关键字:分类算法,outlier detection, machine learning 简介: 此文将 k-means,decision tree,random forest,SVM(support vector mechine),人工神经网络(Artificial Neural Network,简称ANN )这几种常见的算法 apply 在同一个数据集 spam,看各种方法预测错误率,或准确率,旨在追求预测准确性,辨识出这几种方法的实用性,对背后的理论依据,大量的数学公式,不作讨论(能

基于BP神经网络的简单字符识别算法自小结(C语言版)

本文均属自己阅读源码的点滴总结,转账请注明出处谢谢. 欢迎和大家交流.qq:1037701636 email:[email protected] 写在前面的闲话: 自我感觉自己应该不是一个很擅长学习算法的人,过去的一个月时间里因为需要去接触了BP神经网络.在此之前一直都认为算法界的神经网络.蚁群算法.鲁棒控制什么的都是特别高大上的东西,自己也就听听好了,未曾去触碰与了解过.这次和BP神经网络的邂逅,让我初步掌握到,理解透彻算法的基本原理与公式,转为计算机所能识别的代码流,这应该就是所谓的数学和计

基于朴素贝叶斯分类器的文本分类算法

源代码下载:NaviveBayesClassify.rar Preface 文本的分类和聚类是一个比较有意思的话题,我以前也写过一篇blog<基于K-Means的文本聚类算法>,加上最近读了几本数据挖掘和机器学习的书籍,因此很想写点东西来记录下学习的所得. 在本文的上半部分<基于朴素贝叶斯分类器的文本分类算法(上)>一文中简单介绍了贝叶斯学习的基本理论,这一篇将展示如何将该理论运用到中文文本分类中来,具体的文本分类原理就不再介绍了,在上半部分有,也可以参见代码的注释. 文本特征向量