数据挖掘——认识数据

一、数据集有数据对象组成。一个数据对象(样本、实例、数据点、对象、数据元组)有代表一个实体。

二、属性类型

属性是一个数据字段,表示数据对象的一个特征。属性可以是:标称、二元、序数、数值

观测是给定属性的观测值。

1、标称属性:一些对象的名称。

2、二元属性:布尔属性。

3、序数属性:值之间存在有意义的程度评定。

4、数值属性:存在大小的定量。(区间标度、比率标度)

   { 

    区间标度:可以比较合定量之间的差。没有固有的零点。

    比率标度:有固有的零点,可以计算倍数比例。

   }

5、离散属性:有限或者无限可数个值,可以不用整数表示。

6、连续属性:数值属性,一般用浮点数值。

7、数学期望:均值。

三、基本统计描述

基本统计描述可以用来识别数据的性质,筛选不符合主要性质的数据(噪声和离群点)

基本统计描述大体可分为:中心趋势、数据散布、图形显示

1、中心趋势:

      均值—平均值

      中位数—最中间位置的数值

      众数—出现次数最多的数

      中列数—最值的均值

2、数据散布:

      极差—最大值和最小值的差值

      分位数:属性值与概率的对应关系。概率:p=1/2N,0<p<1。

      四分位数—数值依次大小排序,四等分

      四分位数极差—Q3(0.75处的值)-Q1(0.25处的值)

       五数概括—Min,Q1,中位数,Q3,Max

      盒图—  Min----------|Q1      |中位数      Q3|-------------------Max

      方差—各个数据与平均值查的平方的平均值。属性和均值的偏离程度。

      标准差—方差的平方根      

3、图形显示:

      条形图(柱形图、频率直方图):频率数据展示。

      饼状图、分位数图、分为数-分位数图、

      散点图:两个属性的关系趋势。

       

四、数据的相似性和相异性

1、数据矩阵:对象与属性的数组,即N个对象*P个属性

  例如: Name    Age    Sex

A          16       1   —对象O1

      B          16       1   —对象O2

      C          16       1   —对象O3

[   O1Name ,O1Age,O1Sex

      O2Name ,O2Age,O2Sex

      O3Name ,O3Age,O3Sex ]

2、相异性矩阵:对象与对象的数组,即N个对象*N个对象。N个对象两两之间的相近度。

  例如: Name    Age    Sex

A          16       1   —对象O1

      B          16       1   —对象O2

      C          16       1   —对象O3

[   0

      d(2,1)   0

      d(3,1)   d(3,2)  0   ]

d(i,j)是对象i与j之间的相异性度量。值越大差别越大。反之,相似性度量sim(i,j)=1-d(i,j)

下面就具体解释一下d(i,j)................

(1)标称属性的邻近性度量:用不匹配率来计算。公式: d(i,j)=(p-m)/p

    p—属性总数,m—相同属性数。p-m即不相同的属性数。

(2)布尔属性的邻近性度量:

   

对象i                                                                    对象j
  1 0 sum
1 q r q+r
0 s t s+t
sum q+s r+t p=q+s+t+r

   

现在我们找一下相似性:q和t。即,相似性度量:d(i,j)=(q+t)/p=(q+t)/(q+s+t+r)

反之,相异性,就是不一样的度量值.。即,s和r,d(i,j)=(s+r)/p

当然当前我们计算的是对称的二元相异性。什么是对称的二元属性?无论是否,现实中都具有意义和重要性,同等重要。

接下来,非对称的二元相似性,假设,布尔值为0的在现实生活中没有太大的意义。

这样,非对称的二元相似性:sim(i,j)=q/p,因为原来的相似性可取值是:q和t,但是t没有太大的意义。

(3)数值属性的邻近性度量:欧几里得距离、曼哈顿距离、闵可夫斯基距离。。。

时间: 2024-08-14 23:00:03

数据挖掘——认识数据的相关文章

数据挖掘-认识数据

数据对象与属性类型 数据集由数据对象组成.一个数据对象代表一个实体.例如销售数据库中,对象可以是顾客.商品.属性是一个数据字段,表示数据对象的一个特征. 属性类型 标称属性(nominal attribute):一些事物的名称,每个值代表某种类别.编码或者状态.不具有有意义的序,不是定量的,其均值和中位数无意义,总数有意义.例如,颜色这个对象的属性可能有黑色.红色.白色等,职业可能值有教师.医生等. 二元属性(binary attribute):一种标称属性,只有两个类别或状态:0或1.有对称和

数据挖掘:数据(数据对象与属性类型)

一.概述 现实中的数据一般有噪声.数量庞大并且可能来自异种数据源. 数据集由数据对象组成,一个数据对象代表一个实体. 数据对象:又称样本.实例.数据点或对象. 数据对象以数据元组的形式存放在数据库中,数据库的行对应于数据对象,列对应于属性. 属性是一个数据字段,表示数据对象的特征,在文献中,属性.维度(dimension).特征(feature).变量(variance)可以互换的使用. "维",一般用在数据仓库中. "特征",一般用在机器学习中. "变量

【数据分析&amp;数据挖掘】数据合并和拼接案例

1 import pandas as pd 2 import numpy as np 3 4 # 加载数据——detail 5 detail_1 = pd.read_excel("./meal_order_detail.xlsx", sheetname=0) 6 detail_2 = pd.read_excel("./meal_order_detail.xlsx", sheetname=1) 7 detail_3 = pd.read_excel("./me

数据挖掘(数据可视化技术)

1.自组织映射(Self-Organizing Maps or Self-Organizing feature Maps, SOM or SOFM) 转Tom Germano写于1999年3月23日http://davis.wpi.edu/~matt/courses/soms/#Introduction 图片来自:paperuri:(b20e09ec9e801c4cc889f8d5ec4b53e5) 2.平行坐标可视化(Parallel-Coordinate Visualization,PCV)

(数据挖掘)大数据Flume+kafka+zookeeper+Strom/Spark/Fink......

图中黑点代表求婚注册者.假如是一个程序员 原文地址:https://www.cnblogs.com/curedfisher/p/12340087.html

大数据和「数据挖掘」是何关系?---来自知乎

知乎用户,互联网 244 人赞同 在我读数据挖掘方向研究生的时候:如果要描述数据量非常大,我们用Massive Data(海量数据)如果要描述数据非常多样,我们用Heterogeneous Data(异构数据)如果要描述数据既多样,又量大,我们用Massive Heterogeneous Data(海量异构数据)--如果要申请基金忽悠一笔钱,我们用Big Data(大数据) 编辑于 2014-02-2817 条评论感谢 收藏没有帮助举报作者保留权利 刘知远,NLPer 4 人赞同 我觉得 大数据

(原创)大数据时代:数据分析之基于微软案例数据库数据挖掘案例知识点总结

随着大数据时代的到来,数据挖掘的重要性就变得显而易见,几种作为最低层的简单的数据挖掘算法,现在利用微软数据案例库做一个简要总结. 应用场景介绍 其实数据挖掘应用的场景无处不在,很多的环境都会应用到数据挖掘,之前我们没有应用是因为还没有学会利用数据,或者说还没有体会到数据的重要性,现在随着IT行业中大数据时代的到来,让我一起去拥抱大数据,闲言少叙,此处我们就列举一个最简单的场景,一个销售厂商根据以往的销售记录单,通过数据挖掘技术预测出一份可能会购买该厂商产品的客户名单,我相信这也是很多销售机构想要

基于大数据的线上线下电商用户数据挖掘研究

From:http://www.thebigdata.cn/JieJueFangAn/11932p2.html Online-to-Offline( 简称 O2O)电子商务模式,是一个连接线上用户和线下商家的多边平台商业模式. O2O 商业模式将实体经济与线上资源融合在一起,使网络成为实体经济延伸到虚拟世界的渠道; 线下商业可以到线上挖掘和吸引客源,而消费者可以在线上筛选商品和服务并完成支付,再到实体店完成余下消费. 它最先由 TrialPay 创始人 AlexRampell提出,在 2006

数据挖掘(2)---数据

前篇文章我们大致的介绍了数据挖掘一些知识.现在说一下在数据挖掘中的数据问题. 毫无疑问,数据挖掘中,数据是重中之重,在数据挖掘中数据的前期工作基本上会耗费大量时间. 数据集可以看成是数据对象的集合,数据对象简单理解就是一组对象属性,而属性我们也可以称为变量,特性,字段或维,属性类型包括Nominal (名词性),Numberic(数值),当然还可以细分. 1.数据集 我们挖掘的数据集有好多种比如: 1)记录数据: 记录数据就是一条一条记录的汇集,每条记录包含固定的数据字段集,这种记录文件通常存放