数据挖掘：概念与技术--笔记1--度量数据的相似性与相异性

基本概念

数据矩阵

表示 n个对象 × p个属性

相异性矩阵

表示n个对象两两之间的临近度 n×n的矩阵

d(i,j)表示对象i与对象j之间的相异性

1 标称属性的临近性度量

计算公式：

m: 匹配的数目（即i和j取值相同状态的属性数）

p: 刻画对象的属性总数

令p=1 （主要目的是使相异矩阵的值在[0,1]之间），相同时为1，不同时为0

相异矩阵为：

相似性：

2 二元属性的临近性度量

（1）对称的二元相异性

其中q,r,s,t的含义见表2.3

（2）非对称的二元相异性

可以看出非对称的二元相异性是忽略t的，即忽略属性均为0的

例：

y(yes) p(positive) 值为1，n(no, negative) 值为0

其中name是对象标示符，gender是对称属性，其余均为非对称属性

对于非对称属性进行计算：

d(Jack,Jim)=(1+1)/(1+1+1)=0.67

d(Jack,Mary)=(0+1)/(2+0+1)=0.33

d(Jim,Mary)=(1+2)/(1+1+2)=0.75

3 数值属性的相异性

介绍几个基本概念

一般计算距离之前数据应该规范化

欧几里得距离

加权的欧几里得距离

曼哈顿（城市块）距离

闵可夫斯基距离

其中h是实数 h≥1

上确界距离

（1）序数属性的临近性度量

计算步骤：

第一步：把test-2的每个值替换为它的排位，则四个对象将分别被赋值为3,1,2,3

第二步：按照公式 M_f表示总的排位，r_if表示第i个对象的排位（此公式的目的是将每个属性的值域映射到[0.0,1.0]）

所以排位1的值为0,排位2的值为0.5，排位3的值为1

第三步：可以使用比如欧几里得距离算出相异性矩阵

（2）数值属性的临近性度量

对test-3计算

max_hx_h=64,min_hx_h=22

4 混合类型属性的相异性

把所有有意义的属性转换到共同的区间[0.0,1.0]上

结果

5 余弦相似性

对于稀疏矩阵，例比较文档或针对给定的查询词向量对文档排序

例：

时间： 2024-10-24 22:37:52

数据挖掘：概念与技术--笔记1--度量数据的相似性与相异性的相关文章

【读书笔记-数据挖掘概念与技术】认识数据

属性分类: 标称属性(定性) 二元属性(定性) 序数属性(定性) 数值属性(定量) 标称属性--"与名称相关",它的值是一些符号或事物的名称. eg.头发颜色(黑色.棕色.淡黄色.红色) 婚姻状况(单身.已婚.离异.丧偶) 二元属性--标称属性的一种,只有两个类别或状态:0或1(布尔属性). 有对称与非对称之分,对称--两种状态具有同等价值并且携带相同的权重eg.性别非对称--其状态的结果不是同样重要eg.化验结果(阴性0.阳性1) 序数属性--它的值之间具有有意义的序或秩评定,但相

数据挖掘概念与技术读书笔记(二)认识数据

2.1 数据对象与属性类型 2.1.1 什么是属性 2.1.2 标称属性:其值是一些符号或事物的名称.每个值代表某种类别.编码或状态,因此标称属性又被看作是分类的. 标称属性不是定量的,找出它的均值或中位数没有意义,有意义的是找到众数,是一种中心趋势度量. 2.1.3 二元属性:是一种标称属性,只有两个类别或状态:0或1,也称布尔属性. 二元属性可以是对称的:关于哪个结果应该用0或1并无偏好. 二元属性可以是非对称的:其状态结果不是同样重要的,如阳性或阴性.为方便计,将用1对重要的结果编码,另一

【读书笔记-数据挖掘概念与技术】数据立方体技术

基本概念: 基本单元:基本方体的单元聚集单元:非基本方体的单元冰山立方体:部分物化的立方体最小支持度(最小支持度阀值):部分物化的最小阀值(说白了就是限定了一个范围) ∵冰山立方体仍有大量不感兴趣的单元需要计算 ∴引入--闭覆盖--一个单元没有后代或者它的后代的度量值与其不同法2:只预计算涉及少数维的立方体,这些方体形成的数据立方体的立方体外壳计算的一般策略:四种优化技术 1. 排序.散列和分组 2. 同时聚集和缓存中间结果 3. 当存在多个子女方体时,由最小的子女聚

(4)数据--相似性与相异性

相似性和相异性(区别性,不同性) 相似性就是两个数据个体间的相似程度嘛,相异性就是相对的概念咯.相异性也就是距离,如果我们把数据个体看做是向量,那么相异性就是两个向量间的距离了. 相似性与相异性的转换相似性和相异性通常都用区间[0,1]内的数值来表示.这两种值是负相关的,因此理论上任意单调递减的函数都可以用来进行两种值的转换.比如定义s为相似性的值,d为相异性的值,辣么s=1-d,d=1-s就是一种合理的转换. 简单属性值之间的相似性与相异性对于nominal类型而言,唯一能做的就是比较看两

【读书笔记-数据挖掘概念与技术】数据预处理

数据预处理的目的:提高数据质量,数据质量的三要素:准确性.完整性.一致性. 数据预处理的任务: 数据清理数据集成数据规约数据变换数据清理--填充缺失的值.光滑噪声.识别离群点.纠正数据中的不一致缺失值: 忽略元组人工填写缺失值使用一个全局常量使用属性的中心度量使用与给定元组属同一类的所有样本的属性均值或中位数使用最可能的值(最流行) 噪声数据分箱回归离群点分析数据集成--合并来自多个数据存储的数据实体识别问题冗余和相关分析元组重复数据值冲突的监测与处理数据规

《数据挖掘概念与技术》--第三章数据预处理

一.数据预处理 1.数据如果能够满足其应用的要求,那么他是高质量的. 数据质量涉及许多因素:准确性.完整性.一致性.时效性.可信性.可解释性. 2.数据预处理的主要任务:数据清洗.数据集成.数据规约.数据变换. 二.数据清理:试图填充缺失值,光滑噪声.识别利群点.纠正数据中的不一致. 1.缺失值的处理: 1)忽略元组:缺少类标号时通常这么做.但是忽略的元组其他属性也不能用,即便是有用的. 2)人工填写:该方法很费事费时,数据集很大.缺失值很多时可能行不通. 3)使用一个全局常量填充缺失值:将缺失

《数据挖掘概念与技术》学习笔记

1.Chapter1 引论: (1) OLTP 和 OLAP 概念: OLTP(on-line transaction processing) 联机事物处理,就是我们常常说的关系数据库的主要应用,主要是主要的.日常的事务处理,比如银行交易.比如:mysql OLAP(on-line analytical processing) 联机分析处理,是数据仓库系统的主要应用,支持复杂的分析操作,側重决策支持,而且提供直观易懂的查询结果.比如:hive+hdfs. (2) 数据仓库概念: 数据仓库是一个面

《数据挖掘概念与技术》——第四章数据仓库与联机分析处理

一.基本概念 1.宽泛概念:数据仓库是一种数据库,它与的那位的操作数据库分别维护.数据仓库系统允许将各种应用系统集成在一起,为同一的历史数据分析提供坚实的平台,对信息处理提供支持. 另一种说法: 数据仓库是一个面向主题的.集成的.时变的.非易失的数据集合,支持管理者的决策过程. 1)面向主题的:数据仓库围绕一些重要的主题,如顾客.供应商.产品和销售组织.关注点是决策者的数据建模与分析,不是在日常操作和事务处理上. 2)集成的:构造数据仓库是将多个易购数据源,如关系数据库.一般文件.联机事务处理记

《数据挖掘导论》 - 读书笔记(4) - 探索数据 [2016-8-20]

第3张探索数据第2章讨论知识发现过程中重要的高层数据问题.本章是数据探索,对数据进行初步研究,以便更好地理解它的特殊性质.数据探索有助于选择合适的数据预处理和数据分析技术.甚至可以处理一些通常由数据挖掘解决的问题.例如,有时可以通过对数据进行直观检查来发现模式. 本章包括三个主题:汇总统计.可视化和联机分析处理OLAP.汇总统计(如值集合的均值和标准差)和可视化技术是广泛用于数据探索的标准方法.OLAP的分析功能集中在从多为数据数组中创建汇总表的各种方法.OLAP技术包括在不同的维上或不同的