【数据挖掘导论】——绪论

数据挖掘导论读书笔记之绪论

数据挖掘的前提:数据收集和数据存储技术的快速进步。

数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合。为探查和分析新的数据类型以及用新方法分析就有数据类型提供了令人振奋的机会。

数据挖掘是在大型数据存储库中,自动的发现有用信息的过程。

数据挖掘与知识发现

数据挖掘是数据库中知识发现不可缺少的一部分(knowledge deiscovery in database)KDD,KDD是将未加工的数据转换为有用信息的整个过程。

输入数据:输入各种形式存储,并且可以驻留在几种的数据存储库中,活分布在多个站点上。

数据预处理:将未加工的输入数据转换成适合分析的形式。包括:融合来自多个数据源的数据,清洗数据,以及消除噪声和重复的观测值,选择与当前数据挖掘任务相关的记录和特征。是整个知识发现过程中最费力,耗时的步骤。

后处理:将数据挖掘的结果所揭示的规律结合商业活动管理工具,从而开展或者测试有效的商业活动。使那些有效,有用的结果集成到决策支持系统中。

数据挖掘需要解决的问题

可伸缩

由于数据产生和收集技术的进步,大数据越来越普遍。如果数据挖掘算法要处理这些海量数据集,算法必须是可伸缩的(scalabe)。使用抽样技术或者开发并行和分布算法来提高可伸缩性。

高维性

现在数据通常是具有成千上百属性的数据集。具有时间或者空间分量的数据集也经常具有很高的维度。为底维数据开发的传统的数据分析技术通常不能很好处理高维度数据,此外,对于某些数据分析算法,随着维度(特征数)的增加,计算复杂性迅速增加

异种数据和复杂数据

传统的数据分析方法只处理包含相同类型属性的数据集,或者是连续的,或者是分类的。随着数据挖掘在商务,科学以及其他领域的作用越来越大,越来越需要处理异种属性的技术。如:具有序列和三维结构的DNA数据等。为了挖掘这种复杂对象而开发的技术应当考虑数据间的联系。如:时间和空间的自相关性,图的连通性等

数据的所有权与分布

有时,需要分析的数据并非存放在一个站点或者归属一个机构,二十地理上分布属于多个机构。这就需要开发分布式数据挖掘技术。分布式数据挖掘算法面临的主要挑战包括:如何降低执行分布式计算所需要的通信量,如何有效的统一从多个资源得到的数据挖掘结果,如何处理数据安全性等

非传统的分析

传统的统计方法基于一种假设—检验的模式,即提出一种假设,然后设计实验来收集数据,然后针对假设分析数据。但这一方法效率不高。因此需要自动的产生和评估假设。此外数据挖掘所分析的数据通常不是精心涉及的实验结果,而是数据的时机行样本(opportunistic sample),不是随机样本(random sample)。

数据挖掘的起源

为了迎战上述的挑战,数据挖掘利用了如下领域的思想:

  • 统计学的抽样,估计,假设检验
  • 人工智能,模式识别,机器学习的搜索算法,建模技术和学习理论
  • 最优化
  • 进化计算
  • 信息论
  • 信号处理
  • 可视化
  • 信息检索
  • 数据库系统
  • 高性能并行计算技术
  • 分布式技术

数据挖掘任务

通常分为两大类:

预测任务:根据其他属性的值,预测特定属性的值。被预测的属性称目标变量(target variable)活因变量(dependent variable)。用来做预测的属性称为说明变量(explanatory variable)或者自变量(independent variable)

描述任务:导出概括数据中潜在联系的模式(相关,趋势,聚类,轨迹和异常),本质上,描述性数据挖掘任务通常是探查性的。需要做后处理技术验证和解释结果

预测建模(predictive modeling)涉及以说明变量函数的方式为目标变量建立模型。有两类预测建模任务:分类(classification)用于预测离散的目标变量;回归(regression)用于预测连续的目标变量。

如:预测web用户是否网购是分类,因为该目标变量是二值的。预测某股票的未来价格是回归的,因为价格具有连续值属性。两项任务都是训练一个模型,是目标变量预测值与实际值之间的误差达到最小。

关联分析(association analysis)用来发现描述数据中强关联特征的模型。所发现的模式通常用蕴含跪着或者特征子集的形式表示。由于搜索通奸是指数规模,关联分析的目标是以有效的方式提取最有趣的模式。

聚类分析(cluster analysis)旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。聚类可用来对相关的顾客分组,找出显著影响地球气候的海洋区域等。

异常检测(anomaly detection)的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点(anomaly)或离群点(outlier)异常检测算法的目标是发现真正的异常点。而避免错误地将正常的对象标注为异常点。换言之,好的异常检测器必须具有高的检测率和底的误报率。应用包括:检测网络攻击,欺诈等

时间: 2024-10-08 08:47:36

【数据挖掘导论】——绪论的相关文章

【数据挖掘导论】——数据质量

数据质量 数据挖掘使用的数据通常是为其他用途收集或者收集的时候还没有明确目的.因此数据常常不能在数据的源头控制质量.为了避免数据质量的问题,所以数据挖掘着眼于两个方面:数据质量问题的检测和纠正(数据清理):使用可以容忍低质量数据的算法. 测量和数据收集问题 完美的数据在实际中几乎是不存在的,对于存在的数据质量问题,我们先定义测量误差和数据收集错误,然后考虑测量误差的各种问题:噪声,伪像,偏倚,精度和准确度.接着讨论测量和数据收集的数据质量问题:离群点,遗漏和不一致的值,重复数据. 测量误差(me

数据挖掘导论学习---1

最近在看清华大学数据挖掘导论,图个自己复习省事,把学的东西整理在这里,也希望本菜鸡的整理对一些童鞋有帮助吧. 分类问题: 定义:给定训练集:{(x1,y1),...,(xn,yn)},生成将任何未知对象xi映射到其类标签yi的分类器(函数). 图示: 其经典算法: 决策树 KNN 神经网络 支持向量机 注意:我们要的理想分类器是可以得到大部分正确的结果,并不是要达到100%,结果要求平滑. 分类问题算法中的交叉验证: 过程: 利用数据中的训练集进行模型的生成. 利用测试集进行模型的评测(eval

《数据挖掘导论》 - 读书笔记(2) - 绪论 [2016-8-8]

第1章 绪论 数据挖掘是一种技术,将传统的数据分析方法和处理大量数据的复杂算法相结合.数据挖掘为探查和分析新的数据类型以及用新方法分析旧有数据类型提供了令人振奋的机会.我们概述数据挖掘,并列举所涵盖的关键主题. 介绍数据挖掘分析技术的一些应用: 商务:借助POS数据收集技术[条码扫描器.射频识别和智能卡技术],零售商可以在其商店的首映太收集顾客购物的最新数据.零售商可以利用这些信息,加上电子商务网站的日志.电购中心的顾客服务记录等其他的重要商务数据,更好地理解顾客的需求,做出明智的商务决策. 数

数据挖掘导论 第1章 绪论

第1章 绪论 1.1 什么是数据挖掘 数据挖掘是在大型数据存储库中,自动地发现有用信息的过程. 数据挖掘与知识发现 数据挖掘是数据库中知识发现(knowledge discovery in database,KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程.如下图,KDD过程 输入数据:输入数据可以以各种形式存储(平展文件.电子数据表或关系表),并且可以驻留在集中的数据存储库中,或分布在多个站点上. 数据预处理:数据预处理的木得是将未加工的输入数据转换成合适分析的形式.

《数据挖掘导论》 - 读书笔记(1) - 概况 | 目录 [2016-8-8]

本书全面介绍了数据挖掘,涵盖了五个主题:数据.分类.关联分析.聚类和异常检测.除异常检测外,每个主题都有两章.前一章涵盖基本概念.代表性算法和评估技术,而后一章讨论高级概念和算法.这样能够在透彻地理解数据挖据的基础的同时,还能够了解更多重要的高级主题. 目录 第1章 绪论 1.1 什么是数据挖掘 1.2 数据挖掘要解决的问题 1.3 数据挖掘的起源 1.4 数据挖掘任务 1.5 本书内容与组织 第2章 数据 2.1 数据类型 2.2 数据质量 2.3 数据预处理 2.4 相似性和相异性的度量 第

数据挖掘导论 第1章

第1章 绪论 数据挖掘是在大型数据存储库中,自动地发现有用信息的过程. 数据挖掘是数据库中知识发现(knowledeg discovery in database,KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程. KDD:输入数据→数据预处理→数据挖掘→后处理→信息 数据挖掘任务分为下面两个大类: 预测任务:这些任务的目标是根据其他属性的值,预测特定属性的值.被预测的属性一般称目标变量(target variable)或因变量(dependent variable),

【SQL Server 2008商务智能BI】数据挖掘导论

数据挖掘到底是什么呢? 显然数据挖掘不是变魔术,数据挖掘是 使用复杂的数学算法,使我们能够运用计算机强大的计算能力对大量细节数据进行筛查.梳理,找出一些有意义的信息,发现数据中的模式.相关性和聚类.同时它也让我们摆脱了手工进行这种数字运算的劳累工作. 那么我们为什么又要去了解数据挖掘呢? 关系数据库系统擅长记录日常的业务事务,积累了大量的数据. 而多维数据系统通过聚合对数据进行汇总,但由于要按照无数个维度和层次结构来汇总,所以数据还是会成倍增长. 当这些数据多到无法承受时,只能把数据转储到备份磁

《数据挖掘导论》 - 读书笔记(4) - 探索数据 [2016-8-20]

第3张 探索数据 第2章讨论知识发现过程中重要的高层数据问题.本章是数据探索,对数据进行初步研究,以便更好地理解它的特殊性质.数据探索有助于选择合适的数据预处理和数据分析技术.甚至可以处理一些通常由数据挖掘解决的问题.例如,有时可以通过对数据进行直观检查来发现模式. 本章包括三个主题:汇总统计.可视化和联机分析处理OLAP.汇总统计(如值集合的均值和标准差)和可视化技术是广泛用于数据探索的标准方法.OLAP的分析功能集中在从多为数据数组中创建汇总表的各种方法.OLAP技术包括在不同的维上或不同的

《数据挖掘导论》 - 读书笔记(5) - 分类:基本概念、决策树与模型评估 [2016-8-21]

第4章 分类:基本概念.决策树与模型评估 分类任务就是确定对象属于哪个预定义的目标类.分类问题是一个普遍存在的问题,有许多不同的应用.例如:根据电子邮件的标题和内容检查出垃圾邮件,根据核磁共振扫描的结果区分肿瘤是恶性的还是良性的,根据星系的形状对它们进行分析. 本章介绍分类的基本概念,讨论诸如模型的过分拟合等关键问题,并提供评估和比较分类技术性能的方法.尽管本章主要关注一种称作决策树归纳的技术,但是本章讨论的大部分内容也适用于其他的分类技术. 4.1 预备知识 分类任务的输入数据是记录的集合.每