数据仓库与数据挖掘(一)

1、数据挖掘的特点:

  数据挖掘的数据源必须是真实的;

  数据挖掘所处理的数据必须是海量的;

  查询一般是决策制定者(用户)提出的随机查询;

  挖掘出来的知识一般是不能预知的;

2、数据挖掘算法的组成:

  模型或模式结构;

  数据挖掘任务;

  评分函数;

  搜索和优化方法;

  数据管理策略;

3、根据数据分析者的目标,可以将数据挖掘任务分为:

  模式挖掘:致力于从数据中寻找模式,比如寻找频繁模式,异常点等;

  描述建模:目标是描述数据的全局特征。

  预测建模:根据现有数据先建立一个模型,然后应用这个模型来对未来的数据进行预测。

    当被预测的变量是范畴型(category)时,称之为分类;

    当被预测的变量是数量型(quantitative)时,称之为回归。

  描述和预测的关键区别是:预测的目标是唯一的变量,如信用等级、疾病种类等,而描述并不以单一的变量为中心。

  描述建模的典型例子是聚类分析。

4、评分函数

  评分函数用来对数据集与模型(模式)的拟合程度进行评估。

  如果没有评分函数,就无法说出一个特定的已拟合的模型是否比另一个要好。或者说,就没有办法为模型(模式)选择出一套好的参数值来。

  常用的评分函数有:似然(likelihood)函数、误差平方和、准确率等。

  在为模型(模式)选择一个评分函数时,既要能够很好地拟合现有数据,又要避免过度拟合(对极端值过于敏感),同时还要使拟合后的模型(模式)尽量简洁。

  不存在绝对“正确”的模型(模式),所有模型(模式)都是对现有数据的一种近似。从这个角度来讲,如果模型(模式)没有随着现有数据的变化而剧烈变化,这个模型(模式)就是能够接受的了。换句话说,对数据的微小变化不太敏感的模型(模式)才是一个好的模型(模式)。

   评分函数衡量了提出的模型(模式)与现有数据集的拟合程度。

  搜索和优化的目标是确定模型(模式)的结构及其参数值,以使评分函数达到最小值(或最大值)。

5、搜索和优化方法

  如果模型(模式)的结构已经确定,则搜索将在参数空间内进行,目的是针对这个固定的模型(模式)结构,优化评分函数。

  如果模型(模式)的结构还没有确定的话(例如,存在一族不同的模型(模式)结构),那么搜索既要针对结构空间又要针对和这些结构相联系的参数空间进行。

  针对特定的模型,发现其最佳参数值的过程通常被称为优化问题。

  而从潜在的模型(模式)族中发现最佳模型(模式)结构的过程通常被称为搜索问题。

6、组件化思想的应用

  在实践中,数据挖掘算法的组件化思想是非常有用的。它通过将算法分解成一些核心组件而阐明了算法的实现机制。更重要的是,该观点强调了算法的本质,而不仅仅是算法的罗列。

  当面对一个新的应用时,数据挖掘人员应该从组件的角度,根据应用需求,考虑应该选取哪些组件,来组成一个新的算法,而不是考虑选取哪个现成的算法。

  确定模型(模式)结构和评分函数的过程通常由人来完成,而优化评分函数的过程通常需要计算机辅助来实现。实践中,通常要根据前一次的计算结果来改进模型(模式)结构和评分函数,所以整个过程要重复很多次。

  实际上,一个数据挖掘算法的所有组件都是至关重要的。

  对于小的数据集,模型(模式)的解释和预测能力相对于计算效率来说可能要重要的多。

  但是,随着数据集的增大,计算效率将变得越来越重要。对于海量数据,必须在模型(模式)的完备性和计算效率之间进行平衡,以期对现有数据达到某种程度的拟合。

时间: 2024-10-26 12:35:19

数据仓库与数据挖掘(一)的相关文章

数据仓库与数据挖掘的一些基本概念

下面内容摘自互联网并作了整理. 名词: BI(Business Intelligence):商业智能, DW(Data Warehouse):数据仓库,详见正文Q1部分. OLTP(On-Line Transaction Processing):联机事务处理 也称为面向交易的处理系统,其基本特征是顾客的原始数据能够马上传送到计算中心进行处理,并在非常短的时间内给出处理结果.这样做的最大长处是能够即时地处理输入的数据,及时地回答.也称为实时系统(Real time System).衡量联机事务处理

数据仓库与数据挖掘技术pdf

下载地址:网盘下载 内容简介 编辑 本书介绍了以数据仓库.数据挖掘和联机分析为核心技术的商务智能的基本概念.基本原理.开发方法.开发工具.应用领域和管理方法等内容.全书共分为10章,包括商务智能基本概念.数据仓库开发模型.数据仓库开发应用过程.联机分析.数据挖掘基本原理和技术.数据挖掘应用工具.电子商务的智能化.商务智能的管理应用,以及商务智能系统的开发应用实例等内容.每章后还附有可供读者自我测试的习题,以帮助读者对全书的理解.本书内容翔实,结构清晰,应用性强,既可以作为高等学校信息管理与信息系

学习笔记-数据仓库和数据挖掘

以下内容摘自互联网并作了整理. 名词: BI(Business Intelligence):商业智能, DW(Data Warehouse):数据仓库,详见正文Q1部分. OLTP(On-Line Transaction Processing):联机事务处理 也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果.这样做的最大优点是可以即 时地处理输入的数据,及时地回答.也称为实时系统(Real time System).衡量联机事务处理

维基百科上—数据仓库、数据挖掘、OLAP三者之间的区别

数据仓库可以作为数据挖掘和OLAP等分析工具的资料来源,由于存放于数据仓库中的资料,必需经过筛选与转换,因此可以避免分析工具使用错误的资料,而得到不正确的分析结果. 数据挖掘和OLAP同为分析工具,其差别在于OLAP提供用户一便利的多维度观点和方法,以有效率的对数据进行复杂的查询动作,其预设查询条件由用户预先设定,而数据挖掘,则能由资讯系统主动发掘资料来源中,未曾被查觉的隐藏资讯,和透过用户的认知以产生知识. 数据挖掘(Data Mining)技术是经由自动或半自动的方法探勘及分析大量的资料,以

数据仓库与数据挖掘(一)

1.简述数据仓库有哪些特征. 面向主题.集成.稳定性即非易失的.随时间而变化即时变的 2.简述数据仓库与传统数据库的主要区别. 一个是数据库.一个是数据仓库,就不是一个东西,怎么区别嘛. 数据仓库是建立在数据库之上的一个数据环境. 3.为什么需要分离的数据仓库? 不影响生产, 操作型数据是时刻变化的,操作型数据需要清洗后才能供数据仓库使用 4.简述数据仓库的体系结构. 5.简述商务智能和数据仓库的关系. 6下列关于数据仓库的叙述中,哪些是错误的. (1).数据仓库通常采用三层体系结构. 四层:源

数据仓库与数据挖掘(二)

1.简述数据仓库的设计步骤. 数据仓库规划(用户业务目标.仓库目标)和需求分析.建模.物理模型设计.部署.维护. 2.简述星型模式和雪花模式的区别. 一个事实.一组维表 一个事实.维表接维表 3.数据仓库三种模式之间的关系. 星型.雪花.星座 4.在设计数据仓库时,为什么确定事实表的粒度非常重要? 事实与粒度相匹配. 5.以下关于数据粒度的叙述中哪些是错误. (1)粒度是指数据仓库小数据单元的详细程度和级别. (2)数据越详细,粒度就越小,抽象级别也就越高. (3)数据综合度越高,粒度就越大,抽

【读书笔记-数据挖掘概念与技术】数据仓库与联机分析处理(OLAP)

之前看了认识数据以及数据的预处理,那么,处理之后的数据放在哪儿呢?就放在一个叫"数据仓库"的地方. 数据仓库的基本概念: 数据仓库的定义--面向主题的.集成的.时变的.非易失的 操作数据库系统VS数据仓库--为什么需要使用数据仓库分析数据(OLAP  VS  OLTP) 数据仓库体系结构--三层体系结构:底层(数据仓库服务器)--中间层(OLAP服务器)--顶层(前段工具) 三种数据仓库模型 企业模型 数据集市(只针对某一部门) 虚拟仓库 元数据库--关于数据的数据 理解OLAP,数据

(原创)大数据时代:数据分析之基于微软案例数据库数据挖掘案例知识点总结

随着大数据时代的到来,数据挖掘的重要性就变得显而易见,几种作为最低层的简单的数据挖掘算法,现在利用微软数据案例库做一个简要总结. 应用场景介绍 其实数据挖掘应用的场景无处不在,很多的环境都会应用到数据挖掘,之前我们没有应用是因为还没有学会利用数据,或者说还没有体会到数据的重要性,现在随着IT行业中大数据时代的到来,让我一起去拥抱大数据,闲言少叙,此处我们就列举一个最简单的场景,一个销售厂商根据以往的销售记录单,通过数据挖掘技术预测出一份可能会购买该厂商产品的客户名单,我相信这也是很多销售机构想要

数据仓库中数据粒度

粒度问题是设计数据仓库的一个最重要方面.粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别.细化程度越高,粒度级就越小:相反,细化程度越低,粒度级就越大.确定粒度是数据仓库开发者需要面对的一个重要的设计问题.如果数据仓库的粒度确定合理,设计和实现中的其余方面就可以非常顺畅地进行:反之,如果粒度确定的不合理就会是其他所有方面都很难进行.粒度对于数据仓库体系结构设计人员来说,非常重要,因为粒度会影响到那些依赖于从中获取数据的数据仓库的所有环境. 粒度的主要问题是使其处于一个合适的级别,粒度的