数据挖掘之定义

大数据是2012的时髦词汇,正受到越来越多人的关注和谈论。大数据之所以受到人们的关注和谈论,是因为隐藏在大数据后面超千亿美元的市场机会。

  大数据时代,数据挖掘是最关键的工作。以下内容供个人学习用,感兴趣的朋友可以看一下。

  智库百科是这样描述数据挖掘的“数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。

  数据挖掘的定义

  技术上的定义及含义

  数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。

  与数据挖掘相近的同义词有数据融合、人工智能、商务智能、模式识别、机器学习、知识发现、数据分析和决策支持等。

  ----何为知识从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。

  这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。

  商业角度的定义

  数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。

  简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯机会的(Opportunistic)商业运作而产生。分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而

  获得利润。但所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。

  因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。

数据挖掘之定义,布布扣,bubuko.com

时间: 2024-10-24 14:26:21

数据挖掘之定义的相关文章

大数据和「数据挖掘」是何关系?---来自知乎

知乎用户,互联网 244 人赞同 在我读数据挖掘方向研究生的时候:如果要描述数据量非常大,我们用Massive Data(海量数据)如果要描述数据非常多样,我们用Heterogeneous Data(异构数据)如果要描述数据既多样,又量大,我们用Massive Heterogeneous Data(海量异构数据)--如果要申请基金忽悠一笔钱,我们用Big Data(大数据) 编辑于 2014-02-2817 条评论感谢 收藏没有帮助举报作者保留权利 刘知远,NLPer 4 人赞同 我觉得 大数据

跟我一起数据挖掘(19)——什么是数据挖掘(2)

什么是数据仓库? 数据仓库是一个面向主题的( Subject Oriented) .集成的( Integrate) .相对稳定的(NonVolatile) .反映历史变化( Time Variant)的数据集合,用于支持管理决策.对于数据仓库的概念我们可以从两个层次予以理: ①数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库: ②数据仓库是对多个异构数据源的有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改. 企业数据仓库的建设是以

跟我一起数据挖掘(19)——什么是数据挖掘(2)

什么是数据仓库? 数据仓库是一个面向主题的( Subject Oriented) .集成的( Integrate) .相对稳定的(NonVolatile) .反映历史变化( Time Variant)的数据集合,用于支持管理决策.对于数据仓库的概念我们可以从两个层次予以理: ①数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库: ②数据仓库是对多个异构数据源的有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改. 企业数据仓库的建设是以

大数据:互联网大规模数据挖掘与分布式处理pdf

下载地址:网盘下载 内容简介  · · · · · · 大数据:互联网大规模数据挖掘与分布式处理,ISBN:9787115291318,作者:(美) Anand Rajaraman (美) Jeffrey David Ullman 著,王 斌 译 作者简介  · · · · · · Anand Rajaraman 数据库和Web技术领域权威,创业投资基金Cambrian联合创始人,斯坦福大学计算机科学系助理教授.Rajaraman职业生涯非常成功:1996年创办Junglee公司,两年后该公司被

详解数据挖掘与机器学习的区别与联系

1.大数据 (海量数据的存取,会设计到数据库技术) 大数据就是许多数据的聚合: 大数据的特征: 1.数据量大 2.结构复杂 3.数据更新速度快 2.机器学习 (理论和工具) 机器学习是人工智能的核心,要对大数据进行发掘,靠人工肯定是做不到的,要通过一个模型让计算机按照模型去执行,就是机器学习. 3.数据挖掘 (用机器学习对大数据进行分析,挖掘出有用的知识) 机器学习方法在大型数据库中的应用称为数据挖掘(Data Mining) 数据挖掘就是把大数据的价值发掘出来,比如根据过去30年的气象数据,通

【转】第三方支付风控体系

第三方电子支付是一个高风险的行业,这就意味着第三方电子支付公司必然要与各种不确定性相伴.从风险受益的角度来看,第三方电子支付公司存在的价值不在于其能消灭不确定性,消灭风险,而在于其能在对风险有较深入认识的基础上控制和管理风险,将风险配置到愿意并能承担风险的主体,并使其获得收益.风险控制体系目标是实现对各个业务部门.渠道和产品线和相关人员监测,通过对运营业务交易的实时分析.事中和事后分析.跟踪和处理的方法实现欺诈风险预警的自动化.通过对交易的监测,可以识别那些是高风险交易,以及早发现其欺诈的可能性

机器学习第一弹 看斯坦大学视频笔记福大学视频笔记

1. matlab 和 octave 的使用 2.待了解的名词(凸性优化,隐式马尔科夫链) 3.一些数据挖掘的定义 : 一个计算机应用程序,假设有一个任务T,然后有一个性能测量方法P,在经验E的 影响下P对T的测量结果得到改进. 4.向量机的概念: 用来把一个无限维数的向量变成有限的维数. 5.学习性算法的分类 : (1)监督性学习 (ep : 房价分析--回归问题,肿瘤良性恶性分析----分类问题) (2)非监督性学习  (聚类 : 3D环境模拟,声音分离等) (3)强化学习 (在监督性学习的

第一篇:你不一定了解的"推荐系统"

前言 [推荐系统 - 基础教程]可能是穆晨的所有博文里,最有趣最好玩的一个系列了^ ^. 作为该系列的[入门篇],本文将轻松愉快地向读者介绍推荐系统这项大数据领域中的热门技术. 为什么要有推荐系统? 从字面意义来看,推荐系统,就是向各位读者们推荐物品的系统.于是大家自然会想到推销...... 显然,这并不好玩,因为谁也不想被人打扰,而这个"推销系统"也不是本系列教程要讲解的推荐系统. 该问题的根本原因在于:传统推荐方式太low了:而一个可能让读者们感到诧异的事实是:你们已经开始频繁使用

【转】【干货】第三方支付风控系统架构与运作机制阐述!

第三方电子支付是一个高风险的行业,这就意味着第三方电子支付公司必然要与各种不确定性相伴.从风险受益的角度来看,第三方电子支付公司存在的价值不在于其能消灭不确定性,消灭风险,而在于其能在对风险有较深入认识的基础上控制和管理风险,将风险配置到愿意并能承担风险的主体,并使其获得收益.风险控制系统目标是实现对各个业务部门.渠道和产品线和相关人员监测,通过对运营业务交易的实时分析.事中和事后分析.跟踪和处理的方法实现欺诈风险预警的自动化.通过对交易的监测,可以识别那些是高风险交易,以及早发现其欺诈的可能性