数据相似性和相异性

寻找数据之间的相似性是数据聚合、分类、拟合预测等应用中常见的场景;寻找数据之间的相异性是异常检测,排除离群点等数据操作必需的步骤。所以计算数据之间的相似度和相异度是数据处理的基本手段,常用的方法是计算数据之间的距离和密度。

相似度顾名思义就是两个对象相似程度的数值度量,常常在0(不相似)和1(完全相似)之间取值。

相异度就是两个对象之间差异程度的数值度量。相异度常常在[0,1]或[0,正无穷]之间取值。

通过数据变换,把属性值变换到相似度或相异度所在的区间:

标称属性:x = y , 相似度=1,相异度=0;x!=y,相似度=0,相异度=1 。

序数属性:把值映射到整数0到n-1之间,其中n是值的个数,相异度: d = |x - y|/(n -1) ,相似度 s = 1 - d 。

计算数据之间的距离常用的有欧几里得距离,欧氏距离有一些基本的性质:非负性distance(x, y) >=0,对称性distance(x,y) = distance(y,x),三角不等式:distance(x,y)<= distance(x,z) + distance(y,z)。

二元数据的相似性度量

f00 :x取0并且y也取0的属性的个数

f01 : x取0并且y取1的属性的个数

f10 : x取1并且y取0的属性的个数

f11 :x取1并且y也取1的属性的个数

e.g.

x (1,0,0,0,0,0,0,0,0,0)

y (0,0,0,1,0,1,1,0,0,0)

f00 = 6

f01 = 2

f10 = 1

f11 = 0

简单匹配系数(Simple Matching Coefficient, SMC)可以在一个仅包含是非题的测验中用来发现回答问题相似的学生。

SMC = (f11 + f00) / (f00 + f11 + f10 + f01)

Jaccard系数用来处理仅包含非对称的二元属性的对象。

J = f11/(f10 + f01 + f11)

余弦相似度可以用来计算文档的相似度,文档用向量表示,每个属性代表某个关键词出现的频率。

cos(x,y) = (x*y)/(||x||*||y||)

选择合适的邻近性度量方式邻近性度量的类型应该与数据类型相适应。对于许多稠密的、连续的数据,通常采用距离度量。对于稀疏数据,常常包含非对称的属性,通常采用忽略0-0匹配的相似性度量,对于复杂数据集,相似度依赖于它们共同具有的性质的数据,而不是依赖于它们都缺失的性质的数据。

时间: 2024-10-20 19:21:36

数据相似性和相异性的相关文章

(4)数据--相似性与相异性

相似性和相异性(区别性,不同性) 相似性就是两个数据个体间的相似程度嘛,相异性就是相对的概念咯.相异性也就是距离,如果我们把数据个体看做是向量,那么相异性就是两个向量间的距离了. 相似性与相异性的转换 相似性和相异性通常都用区间[0,1]内的数值来表示.这两种值是负相关的,因此理论上任意单调递减的函数都可以用来进行两种值的转换.比如定义s为相似性的值,d为相异性的值,辣么s=1-d,d=1-s就是一种合理的转换. 简单属性值之间的相似性与相异性 对于nominal类型而言,唯一能做的就是比较看两

数据挖掘:概念与技术--笔记1--度量数据的相似性与相异性

基本概念 数据矩阵 表示 n个对象 × p个属性 相异性矩阵 表示n个对象两两之间的临近度   n×n的矩阵 d(i,j)表示对象i与对象j之间的相异性 1 标称属性的临近性度量 计算公式: m: 匹配的数目(即i和j取值相同状态的属性数) p:  刻画对象的属性总数 令p=1 (主要目的是使相异矩阵的值在[0,1]之间),相同时为1,不同时为0 相异矩阵为: 相似性: 2 二元属性的临近性度量 (1)对称的二元相异性 其中q,r,s,t的含义见表2.3 (2)非对称的二元相异性 可以看出非对称

机械制造生产管理软件-严密数据整理-单单相扣-数据自动汇总

信华V8.01超级版适合大部分中小型生产性企业使用,因为其设计理念就是让广大中小型生产型企业用得起.用得好的.所以软件的定价都是非常合理和亲民的,另外软件的操作界面都是简洁明了的,而且还根据软件不同的操作人员,可自由设置操作大按钮.信华V8.01超级版就是为了方便生产现场的管理,主要流程是录入客户订单-审批-自动拆分生产单-审批-mrp缺料自动计算-成品入库-按订单送货-生成应收应付账款,这些都是生产性企业最关注的几大功能模块.信华V8.01超级版生产管理软件为客户提供的不单单是一套管理系统,更

【读书笔记-数据挖掘概念与技术】认识数据

属性分类: 标称属性(定性) 二元属性(定性) 序数属性(定性) 数值属性(定量) 标称属性--"与名称相关",它的值是一些符号或事物的名称. eg.头发颜色(黑色.棕色.淡黄色.红色) 婚姻状况(单身.已婚.离异.丧偶) 二元属性--标称属性的一种,只有两个类别或状态:0或1(布尔属性). 有对称与非对称之分,对称--两种状态具有同等价值并且携带相同的权重eg.性别 非对称--其状态的结果不是同样重要eg.化验结果(阴性0.阳性1) 序数属性--它的值之间具有有意义的序或秩评定,但相

第二章 认识数据 笔记

一.数据对象与属性类型 1.属性: 一个数据字段,表示数据对象的一个特征.(属性.维.特征.变量可以互换实用) 2.标称属性:标称意味着“与名称相关”:标称属性的值是一些符号或失误的名称.每个只代表某种类别.编码或者状态,因而标称属性又被堪称是分类的.例如,人的属性->头发颜色(黑.白.棕.红.黄...)和婚姻状况(未婚.已婚.离异...)属于标称属性. 标称属性值可以用数字表示,如1,2,3等:但是这些值并不具有有意义的序,并且不是定量的,因而这种属性的均值.中位数是没有意义的.众数是有意义的

数据挖掘——认识数据

一.数据集有数据对象组成.一个数据对象(样本.实例.数据点.对象.数据元组)有代表一个实体. 二.属性类型 属性是一个数据字段,表示数据对象的一个特征.属性可以是:标称.二元.序数.数值 观测是给定属性的观测值. 1.标称属性:一些对象的名称. 2.二元属性:布尔属性. 3.序数属性:值之间存在有意义的程度评定. 4.数值属性:存在大小的定量.(区间标度.比率标度) { 区间标度:可以比较合定量之间的差.没有固有的零点. 比率标度:有固有的零点,可以计算倍数比例. } 5.离散属性:有限或者无限

数据挖掘概念与技术读书笔记(二)认识数据

2.1 数据对象与属性类型 2.1.1 什么是属性 2.1.2 标称属性:其值是一些符号或事物的名称.每个值代表某种类别.编码或状态,因此标称属性又被看作是分类的. 标称属性不是定量的,找出它的均值或中位数没有意义,有意义的是找到众数,是一种中心趋势度量. 2.1.3 二元属性:是一种标称属性,只有两个类别或状态:0或1,也称布尔属性. 二元属性可以是对称的:关于哪个结果应该用0或1并无偏好. 二元属性可以是非对称的:其状态结果不是同样重要的,如阳性或阴性.为方便计,将用1对重要的结果编码,另一

R语言学习笔记 之 可视化地研究参议员相似性

基于相似性聚类 很多时候,我们想了解一群人中的一个成员与其他成员之间有多么相似.例如,假设我们是一家品牌营销公司,刚刚完成了一份挂怒有潜力新品牌的研究调查问卷.在这份调查问卷中,我们向一群人展示了新品牌的几个特征,并且要求他们对这个新品牌的每个特征按五分制打分.同时也收集了目标人群的社会经济特征,例如:年龄.性别.种族.住址的邮编以及大概的年收入. 通过这份调查问卷,我们想搞清楚品牌如何吸引不同社会经济特征的人群.最重要的是,我们想要知道这个品牌是否有很大的吸引力.换个角度想这个问题,我们想看看

数据挖掘-认识数据

数据对象与属性类型 数据集由数据对象组成.一个数据对象代表一个实体.例如销售数据库中,对象可以是顾客.商品.属性是一个数据字段,表示数据对象的一个特征. 属性类型 标称属性(nominal attribute):一些事物的名称,每个值代表某种类别.编码或者状态.不具有有意义的序,不是定量的,其均值和中位数无意义,总数有意义.例如,颜色这个对象的属性可能有黑色.红色.白色等,职业可能值有教师.医生等. 二元属性(binary attribute):一种标称属性,只有两个类别或状态:0或1.有对称和