【数据挖掘】基础

1. 基本概念

1.1 数据挖掘:

(1) 数据挖掘是从存放在数据集中的大量数据中挖掘出有趣知识的过程。

(2) 又称数据中知识发现(Knowledge Discovery Databases)或知识发现,它是从一个大量数据中抽取挖掘出未知的、有价值的模式和规律等知识的非平凡过程,它与数据仓库有着密切的联系。

(3) 广义的数据挖掘是指知识发现的全过程;狭义的数据挖掘是指统计分析、机器学习等发现数据模式的智能方法,即偏重于模型和算法。

(4) 数据库查询系统和专家系统不是数据挖掘。在小规模数据上的统计分析和机器学习过程也不应算作数据挖掘。

1.2 机器学习:

(1) 对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么这个计算机程序被称为在从经验E学习。

(2) 机器学习是知识发现的一种方法,是指一个系统通过执行某种过程而改进它处理某一问题的能力。

1.3 数据挖掘的对象:

(1) 关系型数据库、事务型数据库、面向对象数据库

(2) 数据仓库/多为数据库

(3) 空间数据(如地图信息)

(4) 工程数据(如建筑、集成电路的信息)

(5) 文本和多媒体数据(如文本、图像、音频、视频数据)

(6) 时间相关的数据(如历史数据或股票交换数据)

(7) 万维网(如半结构化的HTML,结构化的XML以及其他网络信息)

1.4 数据挖掘的步骤:

(1) 数据清理(消除噪声或不一致数据,补缺);

(2) 数据集成(多种数据源可以组合在一起);

(3) 数据选择(从数据库中提取相关的数据);

(4) 数据交换(变换成适合挖掘的形式);

(5) 数据挖掘(使用智能方法提起数据模式);

(6) 模式评估(识别提供知识的真正有趣模式);

(7) 知识表示(可视化和知识表示技术);

1.5 支持数据挖掘的关键技术:

(1) 数据库/数据仓库/OLAP

(2) 数学/统计(回归分析:多元回归、自回归;判别分析:Bayes判别、Fisher判别、非参数判别;主成分分析、相关性分析;模糊集;粗糙集;)

(3) 机器学习(聚类分析;关联规则;决策树;范例推理;贝叶斯网络;神经网络;支撑向量机;遗传算法)

(4) 可视化:将数据、知识和规则转化为图表表现的形式。

1.6 数据仓库:

(1) 数据仓库是一个面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管理人员的决策。

(2) 数据仓库是一种多个异种数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。

(3) 数据仓库的逻辑结构是多维数据库。数据仓库的实际物理结构可以是关系数据存储或多维数据方(Cube)。

(4) 数据方是由纬度(Dimension)和度量(Measure)定义的一种数据集,度量存放在由维度索引的数据方单元中。维度对应于模式中的属性组,度量对应于与主题相关的事实数据。数据方的物化是指预计算并存储全部或部分单元中的度量。

1.7 数据仓库的模型:

(1) 星型模式:最常见模型;其中数据仓库包括一个大的(包括大批数据、不含冗余)中心表(事实表);一组小的附属表(维表),每维一个。

(2) 雪花模式:星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加的表中。

(3) 星系模式:多个事实表共享维表。这种模式可以看作星型模式集,因此称为星系模式,或事实星座。

1.8 典型的OLAP操作:

(1) OLAP是一种多维数据分析技术。包括汇总、合并和聚集等功能,以及从不同的角度观察信息的能力。

(2) 上卷:从某一纬度的更高概念层次观察数据方,获得更概要的数据。它通过沿维的概念分层向上或维归约来实现。

(3) 下钻:下钻是上卷的逆操作。它从某一维度的更低概念层次观察数据方,获得更详细的数据。下钻可以通过沿维的概念分层向下或引入新的维来实现。

(4) 切片和切块:切片操作在给定的数据方的选择一个维的部分属性,获得一个较小的子数据方。切块操作通过对选择两个或多个维的部分属性,获得一个较小的子数据方。

(5) 转轴:是一种改变数据方二维展现形式的操作。它将数据方的二维展现中的某些维度由行改为列,或由列改为行。

2. 数据准备

现实世界的数据是不完整的(有些感兴趣的属性缺少属性值,或仅包含聚集数据),含噪声的(包含错误,或存在偏离期望的异常值),不一致的(例如,用于商品分类的部门编码存在差异)。

需要数据清理、数据集成、数据选择、数据变换等技术对数据进行处理。

2.1 维归约/特征提取

2.1-1 决策树归约

(1) 决策树归约构造一个类似于流程图的结构:其每个非叶子节点表示一个属性上的测试,每个分支对应于测试的一个输出;每个叶子结点表示一个决策类。

(2) 在每个结点,算法选择“当前对分类最有帮助”的属性,出现在树中的属性形成归约后的属性子集。

2.1.2 粗糙集归约

(1) 粗糙集

3. 数据挖掘算法

数据挖掘算法按挖掘目的可分为:

  • (1) 概念描述(总结,对比等)
  • (2) 关联规则分析
  • (3) 分类与预测(信息自动分类,信息过滤,图像识别等)
  • (4) 聚类分析
  • (5) 异常分析(入侵检测,金融安全等)
  • (6) 趋势、演化分析(回归,序列模式挖掘)

按训练方式,机器学习可分为:

  • 有监督学习:有训练样本,通过学习获得训练样本包含的知识,并用其作为判断测试样本的类别的依据。

  • 无监督学习:无训练样本,仅根据测试样本在特征空间分布情况判断其类别。

  • 半监督学习:有少量训练样本,以从训练样本获得的知识为基础,结合测试样本的分布情况逐步修正已有知识,并判断测试样本的类别。

  • 强化学习:没有训练样本,但有对每一步是否更接近目标的奖惩措施。

3.1 关联规则挖掘

关联规则挖掘:发现大量数据中项集之间有趣的关联或相关联系。

设 I = { i1,i2,...,im } 是项的集合。设任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合,使得TI

时间: 2024-08-07 04:00:40

【数据挖掘】基础的相关文章

2017.06.29数据挖掘基础概念第十,十一章

第十章63.什么是聚类分析 一个把数据对象划分成子集的过程.每一个子集市一个簇,使得簇中的对象彼此相似,但与其他簇中的对象不相似.由聚类分析产生的簇的集合称做一个聚类.64.数据挖掘对聚类的要求 1.可伸缩性 2.处理不同属性类型的能力 3.发现任意形状的簇 4.对于确定输入参数的领域知识的要求 5.出来噪声数据的能力 6.增量聚类和对输入次序不敏感 7.聚类高维数据的能力 8.基于约束的聚类 9.可解释性和可用性 10.划分准则 11.簇的分离性 12.相似性度量 13.聚类空间65.基本聚类

数据挖掘基础简介

一.什么是数据挖掘 随着alphago在围棋上横扫各路高手,轻松击败李世石使得人工智能大火,各种关于数据挖掘.人工智能.机器学习的文章络绎不绝.由此引发了大家的思考,什么是数据挖掘? 数据挖掘通俗点来讲是通过某种方式找出潜藏在大量数据中我们所需要的信息.数据挖掘包含了机器学习.统计学.数学等多个学科的知识.数据挖掘不仅可以在互联网行业中应用,还可以在传统行业中发挥重要的价值. 三国演义中诸葛亮和司马懿交手的次数非常多,下面就以此为案例来对比阐述什么是数据挖掘. 1. 简要分析 诸葛亮战斗指数:

一 数据挖掘基础

从大量数据(包括文本)中挖掘出隐含的.未知的.对决策有潜在价值的关系.模型和趋势,并用这些知识和规律建立用于决策支持的模型,提供预测性决策支持的方法.工具和过程,就是数据挖掘:它利用各种分析工具在大量数据中寻找其规律和发现模型与数据之间关系的过程,是统计学.数据库技术和人工智能技术的综合. 1. 数据挖掘的基本任务 数据挖掘的基本任务包括利用分类与预测.聚类分析.关联规则.时序模式.偏差检测.智能推荐等方法,帮助提取数据中蕴含的商业价值. 2. 数据挖掘建模过程 定义挖掘目标 数据取样 数据探索

数据挖掘基础

伴随着信息化系统建设的发展,各行各业的中大型企业都存储了大量的业务数据.很多的企业想要通过对这些数据的分析,来发现新的商机以及从这些数据中找到提高盈利的方法.大部分的企业,都是凭借管理人员的自身个人经验来开展这项工作.如果有一套系统,能够自动地或者半自动地发现相关的知识和解决方案,这样将会有效地提高企业的决策水平和竞争能力.从大量数据中挖掘出隐含的.未知的.对决策有价值的信息的方法.工具以及工作过程,就是数据挖掘.通过数据挖掘可以在这些数据中找到其中的规律.发现数据之间的关系.数据挖掘是统计学.

2017.06.29数据挖掘基础概念第二.三章

第二章21.研究的属性类型标称属性:值是一些符号或事物的名称,代表某种类型.编码或状态二元属性:是一种标称属性,只有两个类别或状态,又称布尔属性序数属性:是一种属性,其可能的值之间具有有意义的序或秩评定,但是相续值之间的差是未知的数值属性:是定量的,即他是可度量的量,可用整数或实数值表示(区间和比率标度)22.数据散布常见的度量量(数据如何分散的方法/识别离群点)极差 四分位数.四分位数极差.五数概括图.方差和标准差23.审视数据的图形条形.饼图.线图.分位数图.分位数-分位数图.直方图和散点图

2017.06.29数据挖掘基础概念第六,八,九章

第六章51.关联规则的挖掘的两个过程1.找出所有的频繁项集2.由频繁项集产生强关联规则52.频繁项集挖掘方法 1.Apriori算法 2.挖掘频繁项集的模式增长方法 3.使用垂直数据格式挖掘频繁项集53.提高Apriori算法的效率 1.基于散列的技术 2.事务压缩 3.划分 4.抽样 5.动态项集计数 第八章54.如何进行分类 数据的分类是一个两阶段过程,包括学习阶段和分类阶段. 在第一阶段,建立描述预先定义的数据类或概念集的分类器 在第二阶段,使用模型进行分类,首先评估分类器的预测准确率55

2017.06.29数据挖掘基础概念第四章

第四章39.为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行 1.提高两个系统的性能 2.操作数据库支持多事务的并发处理,需要并发控制和恢复机制,确保一致性和事务的鲁棒性 3.两者有着不同的数据的结构.内容和用法40.什么是数据仓库 数据仓库是一种数据库,它与单位的操作数据库分别维护,数据仓库系统允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持,是一个面向主题的.集成的.时变得.非易失的数据集合,支持管理者

数据挖掘基础:在数据中寻找相关的项目 Apriori算法

Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=?; k++) do begin Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are

R语言数据挖掘实战系列(1)

R语言数据挖掘实战(1) 一.数据挖掘基础 数据挖掘:从数据中"淘金",从大量数据(包括文本)中挖掘出隐含的.未知的.对决策有潜在价值的关系.模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法.工具和过程. 数据挖掘的任务 利用分类与预测.聚类分析.关联规则.时序模式.偏差检测.智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力. 数据挖掘建模过程 定义挖掘目标,即决定到底想干什么? 数据取样.抽取一个与挖掘目标相关的样本数据子集.抽取数据的

大数据时代的精准数据挖掘——使用R语言

老师简介: Gino老师,即将步入不惑之年,早年获得名校数学与应用数学专业学士和统计学专业硕士,有海外学习和工作的经历,近二十年来一直进行着数据分析的理论和实践,数学.统计和计算机功底强悍. 曾在某一世界500强公司核心部门担任高级主管负责数据建模和分析工作,在实践中攻克统计建模和数据分析难题无数,数据处理与分析科学精准,在实际应用中取得良好的效果. Gino老师担任数据分析培训师多年,探索出一套以实例讲解带动统计原理理解和软件操作熟悉的方法,授课的学生能迅速理解统计原理并使用统计软件独立开展数