数据挖掘:概念与技术--笔记1--度量数据的相似性与相异性

基本概念

数据矩阵

表示 n个对象 × p个属性

相异性矩阵

表示n个对象两两之间的临近度   n×n的矩阵

d(i,j)表示对象i与对象j之间的相异性

1 标称属性的临近性度量

计算公式:

m: 匹配的数目(即i和j取值相同状态的属性数)

p:  刻画对象的属性总数

令p=1 (主要目的是使相异矩阵的值在[0,1]之间),相同时为1,不同时为0

相异矩阵为:

相似性:

2 二元属性的临近性度量

(1)对称的二元相异性

其中q,r,s,t的含义见表2.3

(2)非对称的二元相异性

可以看出非对称的二元相异性是忽略t的,即忽略属性均为0的

例:

y(yes) p(positive) 值为1,n(no, negative) 值为0

其中name是对象标示符,gender是对称属性,其余均为非对称属性

对于非对称属性进行计算:

d(Jack,Jim)=(1+1)/(1+1+1)=0.67

d(Jack,Mary)=(0+1)/(2+0+1)=0.33

d(Jim,Mary)=(1+2)/(1+1+2)=0.75

3 数值属性的相异性

介绍几个基本概念

一般计算距离之前数据应该规范化

欧几里得距离

加权的欧几里得距离

曼哈顿(城市块)距离

闵可夫斯基距离

其中h是实数 h≥1

上确界距离

 (1)序数属性的临近性度量

计算步骤:

第一步:把test-2的每个值替换为它的排位,则四个对象将分别被赋值为3,1,2,3

第二步:按照公式 Mf表示总的排位,rif表示第i个对象的排位 (此公式的目的是将每个属性的值域映射到[0.0,1.0])

所以排位1的值为0,排位2的值为0.5,排位3的值为1

第三步:可以使用比如欧几里得距离算出相异性矩阵

(2)数值属性的临近性度量

对test-3计算

maxhxh=64,minhxh=22

4 混合类型属性的相异性

把所有有意义的属性转换到共同的区间[0.0,1.0]上

结果

5 余弦相似性

对于稀疏矩阵,例比较文档或针对给定的查询词向量对文档排序

例:

时间: 2024-10-24 22:37:52

数据挖掘:概念与技术--笔记1--度量数据的相似性与相异性的相关文章

【读书笔记-数据挖掘概念与技术】认识数据

属性分类: 标称属性(定性) 二元属性(定性) 序数属性(定性) 数值属性(定量) 标称属性--"与名称相关",它的值是一些符号或事物的名称. eg.头发颜色(黑色.棕色.淡黄色.红色) 婚姻状况(单身.已婚.离异.丧偶) 二元属性--标称属性的一种,只有两个类别或状态:0或1(布尔属性). 有对称与非对称之分,对称--两种状态具有同等价值并且携带相同的权重eg.性别 非对称--其状态的结果不是同样重要eg.化验结果(阴性0.阳性1) 序数属性--它的值之间具有有意义的序或秩评定,但相

数据挖掘概念与技术读书笔记(二)认识数据

2.1 数据对象与属性类型 2.1.1 什么是属性 2.1.2 标称属性:其值是一些符号或事物的名称.每个值代表某种类别.编码或状态,因此标称属性又被看作是分类的. 标称属性不是定量的,找出它的均值或中位数没有意义,有意义的是找到众数,是一种中心趋势度量. 2.1.3 二元属性:是一种标称属性,只有两个类别或状态:0或1,也称布尔属性. 二元属性可以是对称的:关于哪个结果应该用0或1并无偏好. 二元属性可以是非对称的:其状态结果不是同样重要的,如阳性或阴性.为方便计,将用1对重要的结果编码,另一

【读书笔记-数据挖掘概念与技术】数据立方体技术

基本概念: 基本单元:基本方体的单元 聚集单元:非基本方体的单元 冰山立方体:部分物化的立方体 最小支持度(最小支持度阀值):部分物化的最小阀值(说白了就是限定了一个范围) ∵冰山立方体仍有大量不感兴趣的单元需要计算 ∴引入--闭覆盖--一个单元没有后代或者它的后代的度量值与其不同 法2:只预计算涉及少数维的立方体,这些方体形成的数据立方体的立方体外壳 计算的一般策略:四种优化技术 1.    排序.散列和分组 2.    同时聚集和缓存中间结果 3.    当存在多个子女方体时,由最小的子女聚

(4)数据--相似性与相异性

相似性和相异性(区别性,不同性) 相似性就是两个数据个体间的相似程度嘛,相异性就是相对的概念咯.相异性也就是距离,如果我们把数据个体看做是向量,那么相异性就是两个向量间的距离了. 相似性与相异性的转换 相似性和相异性通常都用区间[0,1]内的数值来表示.这两种值是负相关的,因此理论上任意单调递减的函数都可以用来进行两种值的转换.比如定义s为相似性的值,d为相异性的值,辣么s=1-d,d=1-s就是一种合理的转换. 简单属性值之间的相似性与相异性 对于nominal类型而言,唯一能做的就是比较看两

【读书笔记-数据挖掘概念与技术】数据预处理

数据预处理的目的:提高数据质量,数据质量的三要素:准确性.完整性.一致性. 数据预处理的任务: 数据清理 数据集成 数据规约 数据变换 数据清理--填充缺失的值.光滑噪声.识别离群点.纠正数据中的不一致 缺失值: 忽略元组 人工填写缺失值 使用一个全局常量 使用属性的中心度量 使用与给定元组属同一类的所有样本的属性均值或中位数 使用最可能的值(最流行) 噪声数据 分箱 回归 离群点分析 数据集成--合并来自多个数据存储的数据 实体识别问题 冗余和相关分析 元组重复 数据值冲突的监测与处理 数据规

《数据挖掘概念与技术》--第三章 数据预处理

一.数据预处理 1.数据如果能够满足其应用的要求,那么他是高质量的. 数据质量涉及许多因素:准确性.完整性.一致性.时效性.可信性.可解释性. 2.数据预处理的主要任务:数据清洗.数据集成.数据规约.数据变换. 二.数据清理:试图填充缺失值,光滑噪声.识别利群点.纠正数据中的不一致. 1.缺失值的处理: 1)忽略元组:缺少类标号时通常这么做.但是忽略的元组其他属性也不能用,即便是有用的. 2)人工填写:该方法很费事费时,数据集很大.缺失值很多时可能行不通. 3)使用一个全局常量填充缺失值:将缺失

《数据挖掘概念与技术》学习笔记

1.Chapter1 引论: (1) OLTP 和 OLAP 概念: OLTP(on-line transaction processing) 联机事物处理,就是我们常常说的关系数据库的主要应用,主要是主要的.日常的事务处理,比如银行交易.比如:mysql OLAP(on-line analytical processing) 联机分析处理,是数据仓库系统的主要应用,支持复杂的分析操作,側重决策支持,而且提供直观易懂的查询结果.比如:hive+hdfs. (2) 数据仓库概念: 数据仓库是一个面

《数据挖掘概念与技术》——第四章 数据仓库与联机分析处理

一.基本概念 1.宽泛概念:数据仓库是一种数据库,它与的那位的操作数据库分别维护.数据仓库系统允许将各种应用系统集成在一起,为同一的历史数据分析提供坚实的平台,对信息处理提供支持. 另一种说法: 数据仓库是一个面向主题的.集成的.时变的.非易失的数据集合,支持管理者的决策过程. 1)面向主题的:数据仓库围绕一些重要的主题,如顾客.供应商.产品和销售组织.关注点是决策者的数据建模与分析,不是在日常操作和事务处理上. 2)集成的:构造数据仓库是将多个易购数据源,如关系数据库.一般文件.联机事务处理记

《数据挖掘导论》 - 读书笔记(4) - 探索数据 [2016-8-20]

第3张 探索数据 第2章讨论知识发现过程中重要的高层数据问题.本章是数据探索,对数据进行初步研究,以便更好地理解它的特殊性质.数据探索有助于选择合适的数据预处理和数据分析技术.甚至可以处理一些通常由数据挖掘解决的问题.例如,有时可以通过对数据进行直观检查来发现模式. 本章包括三个主题:汇总统计.可视化和联机分析处理OLAP.汇总统计(如值集合的均值和标准差)和可视化技术是广泛用于数据探索的标准方法.OLAP的分析功能集中在从多为数据数组中创建汇总表的各种方法.OLAP技术包括在不同的维上或不同的