数据分类

1定义

  • 是指把数据样本映射到一个事先定义的类中的学习过程;即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类
  • 所以数据分类的任务:通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y;

  

2示例

  数据集包含多个描述属性和一个类别属性,一般来数,描述属性:连续值或离散值;类别属性:只能是离散值(目标属性连续对应回归问题)

  两类分类示例

  • 银行业:区分高端信用卡和低端信用卡
  • 医疗诊断:区分正常细胞和癌细胞
  • 互联网:区分正常邮件和垃圾邮件

  多类分类示例

  • 油气传输:区分行人走过、汽车碾过、镐刨、电钻等行为
  • 文字识别:区分不同的字符(其中汉字识别是一个大类别问题)
  • 社会网络:区分中心用户、活跃用户、不活跃用户、马甲用户等

3分类过程

  

3.1获取数据

  数值型数据

  • 病例中的各种化验数据
  • 空气质量监测数据

  描述性数据

  • 人事部门档案资料

  图片型数据

  • 指纹、掌纹
  • 自然场景图片

  很多情况下,需要将上述数据统一转换为数值型数据序列,即形成特征向量(特征提取)

3.2预处理

  为了提高分类的准确性和有效性,需要对分类所用的数据进行预处理

  • 去除噪声数据
  • 对空缺值进行处理
  • 数据降维(特征选择)--(PCA、LDA)

  备注:主成分分析 ( Principal Component Analysis , PCA )

     线性鉴别分析(Linear Discriminant Analysis, LDA),也称Fisher线性判别(Fisher Linear Discriminant ,FLD), 这种算法是Ronald Fisher 于 1936年发明的,是模式识别的经典算法。

3.3分类器设计

3.3.1划分数据集

  给定带有类标号的数据集,并且将数据集划分为两个部分

  • 训练集(training set)
  • 测试集(testing set)

  划分策略:

  1.当数据集D的规模较大时

    训练集2|D|/3,测试集是1|D|/3

  2.当数据集D的规模不大时

    n交叉验证法(n-fold validation) 将数据集随机地划分为n组 之后执行n次循环,在第i次循环中,将第i组数据样本作为测试集,其余的n-1组数据样本作为训练集,最终的精度为n个精度的平均值。

  3.当数据集D的规模非常小时  

    每次交叉验证时,只选择一条测试数据,剩余的数据均作为训练集。 原始数据集有m条数据时,相当于m-次交叉验证。 是N-次交叉验证的一个特例。

3.3.2分类器构造  

  利用训练集构造分类器(分类模型)

  通过分析由属性描述的每类样本的数据信息,从中总结出分类的规律性,建立判别公式或判别规则

  在分类器构造过程中,由于提供了每个训练样本的类标号,这一步也称作监督学习(supervised learning)

3.3.3分类器测试

  利用测试集对分类器的分类性能进行评估,具体方式是:

  首先,利用分类器对测试集中的每一个样本进行分类

  其次,将分类得到的类标号和测试集中数据样本的原始类标号进行对比

  由上述过程得到分类器的分类性能(如何评价?)

  分类的评价准则---约定和假设

  

  1)指标一,精确度(accuracy)  

  • 是最常用的评价准则
  • 代表测试集中被正确分类的数据样本所占的比例
  • 反映了分类器对于数据集的整体分类性能

             

   1)指标一,精确度(accuracy)

  

3.4分类决策

  在构造成功分类器之后(通过测试),则可以利用该分类器实际执行分类。

  

时间: 2024-10-11 00:56:30

数据分类的相关文章

JS 数据分类

js的数据分类 原始数据类型 和  引用数据类型 区别 原始数据类型 1,简单的数据段 2,存放的值(栈) 引用数据类型     1,有多个值构成的对象 2,存放的地址(堆)原始数据类型 或 基本数据类型 6种 1,null (空,不存在) 2,undefined (1,申明未赋值,2,函数没有返回值) 3,number    (数字,小数和整数) 4,boolean (布尔值,true,false) 5,string (字符串,单引或双引表示) 6,es6 symbol 原始数据类型  通过S

基于SVM的数据分类预測——意大利葡萄酒种类识别

update:把程序源代码和数据集也附上http://download.csdn.net/detail/zjccoder/8832699 2015.6.24 ------------------------------------------------------------------------------------------------------------------------------------------------------------------------- w

Python3.2 实现基于KNN算法的数据分类

1 前言 这几天在看<机器学习实战>一书,买这本书的最首要原因是它里面采用Python来实现,而我这段时间对Python的好感越来越强烈.拿到手后一看,果然很不错,书中对一些经典机器学习算法的解释与实现 阐述的都很通俗.今天把KNN算法看懂了,在些基础上用Python进行了实现,代码主要还是基于书中的示例,我在看明白后,加上了注释. 2 KNN算法的基本原理 KNN属于监督学习,要求事先准备好已知分类结果的数据集(即样本数据),其基本原理较为简单.对于待分类的数据集,将其各特征值与样本数据对应

大数据架构和模式(一)——大数据分类和架构简介

概述 大数据可通过许多方式来存储.获取.处理和分析.每个大数据来源都有不同的特征,包括数据的频率.量.速度.类型和真实性.处理并存储大数据时,会涉及到更多维度,比如治理.安全性和策略.选择一种架构并构建合适的大数据解决方案极具挑战,因为需要考虑非常多的因素. 这个 “大数据架构和模式” 系列提供了一种结构化和基于模式的方法来简化定义完整的大数据架构的任务.因为评估一个业务场景是否存在大数据问题很重要,所以我们包含了一些线索来帮助确定哪些业务问题适合采用大数据解决方案. 从分类大数据到选择大数据解

使用SVM对于许多类型的多维数据分类

最近,我做了一件小事,使用SVM正确8三维级数据分类,在线搜索,我们发现二分的问题大家都在讨论二维数据,一些决定自己的研究.我首先参考opencvtutorial.这也是二维数据的二分类问题.然后通过学习研究,发现别有洞天,遂实现之前的目标.在这里将代码贴出来.这里实现了对三维数据进行三类划分.以供大家相互学习. #include "stdafx.h" #include <iostream> #include <opencv2/core/core.hpp> #i

Excel数据分类汇总与数据透视表

苏轼的<题西林壁>:横看成岭侧成峰,远近高低各不同.给我们讲述着一个道理:同样的事物与内容,从不同角度观察会得到意想不到的结果.同样,Excel不单单只是一个数据的记录工具,也不单单是一个表格的制作工具,学会怎么从一行一行单调的数据去挖掘出我们想要的信息也是它的一个强项.我们不应小看Excel的挖掘功能,使用好挖掘功能会让我们得到意想不到的效果,将是我们工作中分析问题的一大助力. 下面介绍两种常用的数据分析.挖掘工具:数据分类汇总与数据透视表.要使用的示例数据如下: 呵呵-有点偷懒,还是使用上

SQLServer---使用Case When解决SQLServer数据分类汇总问题

SQLServer---使用Case When解决SQLServer数据分类汇总问题 近半年一直在负责某市的人事档案管理系统的后期开发和维护工作,之前客户给了一张如下图的表格,需要我去汇总数据,然后填充到表格中. 具体的需求:统计出每一个工作人员在某一段时间内分别打印了多少张不同的信函(或报表). 最初的想法 1.  查出使用该系统的工作人员 select realName as '姓名' from T_User where userID in(select distinct userID fr

基于SVM的数据分类预测——意大利葡萄酒种类识别

wine数据来自于UCI数据库,记录的是意大利同一地区3中不同品种的葡萄酒13中化学成分含量,以期通过科学的方法,达到自动分类葡萄酒的目的. 本次分类的数据共有178个样本,每个样本有13个属性,并提供每个样本的正确分类,用于检验SVM分类的准确定. 首先我们画出数据的可视化图: % 载入测试数据wine,其中包含的数据为classnumber = 3,wine:178*13的矩阵,wine_labes:178*1的列向量 load chapter_WineClass.mat; % 画出测试数据

大数据架构和模式(一)大数据分类和架构简介

本文收藏于:http://kb.cnblogs.com/page/510978/ 作者: Divakar等  来源: DeveloperWorks  发布时间: 2015-01-29 18:19  阅读: 3294 次  推荐: 8   原文链接   [收藏] 摘要:大数据问题的分析和解决通常很复杂.大数据的量.速度和种类使得提取信息和获得业务洞察变得很困难.以下操作是一个良好的开端:依据必须处理的数据的格式.要应用的分析类型.使用的处理技术,以及目标系统需要获取.加载.处理.分析和存储数据的数