数据挖掘导论笔记1

1 属性的不同类型

分类或定性

(1)相异性 =和≠             标称              如:性别,员工ID

(2)序 < > ≦ ≧             序数              如:好,较好,最好;街道号码

定量或数值

(3)加法 +和-                区间               如:日期;温度

(4)乘法 *和/                 比率              如:货币量;计数;年龄

2 用值得个数描述属性

(1)离散的

(2)连续的

3 非对称的属性

只有非零值才重要的二元属性是非对称的二元属性,如学生选修课,选课为1,没选为0

时间: 2024-10-18 11:00:55

数据挖掘导论笔记1的相关文章

【数据挖掘导论】——绪论

数据挖掘导论读书笔记之绪论 数据挖掘的前提:数据收集和数据存储技术的快速进步. 数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合.为探查和分析新的数据类型以及用新方法分析就有数据类型提供了令人振奋的机会. 数据挖掘是在大型数据存储库中,自动的发现有用信息的过程. 数据挖掘与知识发现 数据挖掘是数据库中知识发现不可缺少的一部分(knowledge deiscovery in database)KDD,KDD是将未加工的数据转换为有用信息的整个过程. 输入数据:输入各种形式存

MIT算法导论笔记

详细MIT算法导论笔记 (网络链接) 第一讲:课程简介及算法分析 第二讲:渐近符号.递归及解法

【数据挖掘导论】——数据质量

数据质量 数据挖掘使用的数据通常是为其他用途收集或者收集的时候还没有明确目的.因此数据常常不能在数据的源头控制质量.为了避免数据质量的问题,所以数据挖掘着眼于两个方面:数据质量问题的检测和纠正(数据清理):使用可以容忍低质量数据的算法. 测量和数据收集问题 完美的数据在实际中几乎是不存在的,对于存在的数据质量问题,我们先定义测量误差和数据收集错误,然后考虑测量误差的各种问题:噪声,伪像,偏倚,精度和准确度.接着讨论测量和数据收集的数据质量问题:离群点,遗漏和不一致的值,重复数据. 测量误差(me

散列表(算法导论笔记)

散列表 直接寻址表 一个数组T[0..m-1]中的每个位置分别对应全域U中的一个关键字,槽k指向集合中一个关键字为k的元素,如果该集合中没有关键字为k的元素,则T[k] = NIL 全域U={0,1,…,9}中的每个关键字都对应于表中的一个下标值,由实际关键字构成的集合K={2,3,5,8}决定表中的一些槽,这些槽包含指向元素的指针,而另一些槽包含NIL 直接寻址的技术缺点非常明显:如果全域U很大,则在一台标准的计算机可用内存容量中,要存储大小为|U|的一张表T也许不太实际,甚至是不可能的.还有

数据挖掘导论学习---1

最近在看清华大学数据挖掘导论,图个自己复习省事,把学的东西整理在这里,也希望本菜鸡的整理对一些童鞋有帮助吧. 分类问题: 定义:给定训练集:{(x1,y1),...,(xn,yn)},生成将任何未知对象xi映射到其类标签yi的分类器(函数). 图示: 其经典算法: 决策树 KNN 神经网络 支持向量机 注意:我们要的理想分类器是可以得到大部分正确的结果,并不是要达到100%,结果要求平滑. 分类问题算法中的交叉验证: 过程: 利用数据中的训练集进行模型的生成. 利用测试集进行模型的评测(eval

《数据挖掘导论》 - 读书笔记(4) - 探索数据 [2016-8-20]

第3张 探索数据 第2章讨论知识发现过程中重要的高层数据问题.本章是数据探索,对数据进行初步研究,以便更好地理解它的特殊性质.数据探索有助于选择合适的数据预处理和数据分析技术.甚至可以处理一些通常由数据挖掘解决的问题.例如,有时可以通过对数据进行直观检查来发现模式. 本章包括三个主题:汇总统计.可视化和联机分析处理OLAP.汇总统计(如值集合的均值和标准差)和可视化技术是广泛用于数据探索的标准方法.OLAP的分析功能集中在从多为数据数组中创建汇总表的各种方法.OLAP技术包括在不同的维上或不同的

《数据挖掘导论》 - 读书笔记(5) - 分类:基本概念、决策树与模型评估 [2016-8-21]

第4章 分类:基本概念.决策树与模型评估 分类任务就是确定对象属于哪个预定义的目标类.分类问题是一个普遍存在的问题,有许多不同的应用.例如:根据电子邮件的标题和内容检查出垃圾邮件,根据核磁共振扫描的结果区分肿瘤是恶性的还是良性的,根据星系的形状对它们进行分析. 本章介绍分类的基本概念,讨论诸如模型的过分拟合等关键问题,并提供评估和比较分类技术性能的方法.尽管本章主要关注一种称作决策树归纳的技术,但是本章讨论的大部分内容也适用于其他的分类技术. 4.1 预备知识 分类任务的输入数据是记录的集合.每

《数据挖掘导论》 - 读书笔记(1) - 概况 | 目录 [2016-8-8]

本书全面介绍了数据挖掘,涵盖了五个主题:数据.分类.关联分析.聚类和异常检测.除异常检测外,每个主题都有两章.前一章涵盖基本概念.代表性算法和评估技术,而后一章讨论高级概念和算法.这样能够在透彻地理解数据挖据的基础的同时,还能够了解更多重要的高级主题. 目录 第1章 绪论 1.1 什么是数据挖掘 1.2 数据挖掘要解决的问题 1.3 数据挖掘的起源 1.4 数据挖掘任务 1.5 本书内容与组织 第2章 数据 2.1 数据类型 2.2 数据质量 2.3 数据预处理 2.4 相似性和相异性的度量 第

《数据挖掘导论》 - 读书笔记(2) - 绪论 [2016-8-8]

第1章 绪论 数据挖掘是一种技术,将传统的数据分析方法和处理大量数据的复杂算法相结合.数据挖掘为探查和分析新的数据类型以及用新方法分析旧有数据类型提供了令人振奋的机会.我们概述数据挖掘,并列举所涵盖的关键主题. 介绍数据挖掘分析技术的一些应用: 商务:借助POS数据收集技术[条码扫描器.射频识别和智能卡技术],零售商可以在其商店的首映太收集顾客购物的最新数据.零售商可以利用这些信息,加上电子商务网站的日志.电购中心的顾客服务记录等其他的重要商务数据,更好地理解顾客的需求,做出明智的商务决策. 数