数据挖掘相关概念

1、 统计学与数据挖掘的区别:

统计学主要利用概率论建立数学模型,是研究随机现象的常用数学工具之一。

数据挖掘分析大量数据,发现其中的内在联系和知识,并以模型或规则表达这些知识。

虽然两者采用的某些分析方法(如回归分析)是相同的,但是数据挖掘和统计学是有本质区别的:

一个主要差别在于处理对象(数据集)的尺度和性质。数据挖掘经常会面对尺度为GB甚至TB数量级的数据库,而用传统的统计方法很难处理这么大尺度的数据集。传统的统计处理往往是针对特定的问题采集数据(甚至通过试验设计加以优化)和分析数据来解决特定问题;而数据挖掘却往往是数据分析的次级过程,其所用的数据原本可能并非为当前研究而专门采集的,因而其适用性和针对性可能都不强,在数据挖掘的过程中,需要对异常数据及冲突字段等进行预处理,尽可能提高数据的质量,然后才经过预处理的数据进行数据挖掘。

另一个差别在于面对结构复杂的海量数据,数据挖掘往往需要采用各种相应的数学模型和应用传统统计学以外的数学工具,才能建立最适合描述对象的模型或规则。

总之,统计学在生物医学研究中常采用假设检验(或称显著性检验)方法,其侧重假设驱动(hypothesis-driven),即提出假设并加以检验;而数据挖掘则不具备这样的功能,其主要是数据驱动(data-driven),即从数据中发现规律并得到知识。

2、 数据挖掘分类

数据挖掘分为预测型(predictive)和描述型(descriptive)两大类型。预测型数据挖掘是利用从历史数据中发现的已知结果,推断或预测未知数据的可能值。描述型属于挖掘是识别数据中的模式(pattern)或关系,旨在探索被分析数据的内在性质。根据对象的性质和需要解决的具体问题,可以采用不同的数据挖掘方法。

预测型数据挖掘方法包括分类(classification)、回归分析(regression analysis)和时间序列分析(time series analysis)等;描述型数据挖掘方法包括聚类(clustering)、关联规则分析(association rule analysis)和序列分析(sequence analysis)等。

数据挖掘相关概念,布布扣,bubuko.com

时间: 2024-10-03 14:02:23

数据挖掘相关概念的相关文章

大数据和「数据挖掘」是何关系?---来自知乎

知乎用户,互联网 244 人赞同 在我读数据挖掘方向研究生的时候:如果要描述数据量非常大,我们用Massive Data(海量数据)如果要描述数据非常多样,我们用Heterogeneous Data(异构数据)如果要描述数据既多样,又量大,我们用Massive Heterogeneous Data(海量异构数据)--如果要申请基金忽悠一笔钱,我们用Big Data(大数据) 编辑于 2014-02-2817 条评论感谢 收藏没有帮助举报作者保留权利 刘知远,NLPer 4 人赞同 我觉得 大数据

数据挖掘中所需的概率论与数理统计知识

http://blog.csdn.net/v_july_v/article/details/8308762 数据挖掘中所需的概率论与数理统计知识 (关键词:微积分.概率分布.期望.方差.协方差.数理统计简史.大数定律.中心极限定理.正态分布) 导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节(彻底颠覆以前读书时大学课本灌输给你的观念,一探正态分布之神秘芳踪,知晓其前后发明历史由来),相信,每一个学过概率论与数理统计的朋友都有必要了解数理统计学简史,因为,

《数据挖掘:R语言实战》

<数据挖掘:R语言实战> 基本信息 作者: 黄文    王正林 丛书名: 大数据时代的R语言 出版社:电子工业出版社 ISBN:9787121231223 上架时间:2014-6-6 出版日期:2014 年6月 开本:16开 页码:292 版次:1-1 所属分类:计算机 > 软件与程序设计 > 综合 > 高级程序语言设计 更多关于>>><数据挖掘:R语言实战> 内容简介 书籍 计算机书籍 数据挖掘技术是当下大数据时代最关键的技术,其应用领域及前景

扫盲贴:数据挖掘(Data mining)是什么?

数据挖掘有什么用途?数据挖掘和数据仓库之间有什么样的联系?数据挖掘和市场调研.数据分析又有什么样的联系?…… 一 扫盲篇 研究结果表明,企业处理的数据每5年就会成倍增长,导致企业数据过度的重复和不一致,如何在这些数据中获取有利信息就促进数据挖掘技术发展. 1.数据挖掘的相关概念 谢邦昌教授在<数据挖掘 clementine应用实物>一书中提到,数据挖掘是指寻找隐藏在数据中的信息(如趋势.特征及相关性)的过程,也就是从数据中挖掘信息或知识KDD(knowledge discovery in da

文本分类,数据挖掘和机器学习

转自:http://blog.chinaunix.net/uid-446337-id-94440.html 分类: 机器学习的有概率分类器(probabilistic) ,贝叶斯推理网络(bayesian inference networks) , 决策树分类器(decision tree) ,决策规则分类器(decision rule) ,基于回归的线性最小二乘llsf(regression based on linearleast squares fit ) , 符号规则归纳法( symbo

数据挖掘相关免费软件

转载自http://reader.dashuai.net/?p=100 数据清理类工具 DataWrangler Google Refine 统计分析类工具 The R Project for Statistical Computing TimeFlow 数据展现类工具 Google Fusion Tables Impure Tableau Public Many Eyes VIDI Zoho Reports 代码帮助类工具 Choosel Exhibit 地图相关数据展示工具 Quantum

AI技术说:人工智能相关概念与发展简史

作者:个推大数据科学家朱金星 作为近几年的一大热词,人工智能一直是科技圈不可忽视的一大风口.随着智能硬件的迭代,智能家居产品逐步走进千家万户,语音识别.图像识别等AI相关技术也经历了阶梯式发展.如何看待人工智能的本质?人工智能的飞速发展又经历了哪些历程?本文就从技术角度为大家介绍人工智能领域经常提到的几大概念与AI发展简史. 一.人工智能相关概念1.人工智能(Artifical Intelligence, AI):就是让机器像人一样的智能.会思考,是机器学习.深度学习在实践中的应用.人工智能更适

R语言数据挖掘实战系列(2)

二.R语言简介 R语言是一种为统计计算和图形显示而设计的语言环境,具有免费.多平台支持,同时可以从各种类型的数据源中导入数据,具有较高的开放性以及高水准的制图功能.R是一个体系庞大的应用软件,主要包括核心的R标准包和各专业领域的其他包.R在数据分析.数据挖掘领域具有特别优势. R安装 R可在其主页(https://www.r-project.org/)上获得,根据所选择的平台进行下载安装.安装完成之后启动R.为了方便使用R,可使用免费的图形界面编辑器RStudio,可从https://www.r

DNS服务相关概念详解

实验环境:RHEL 32Bit DNS服务相关概念详解 DNS是一种域名解析服务,DNS服务的核心以及DNS服务的标准都是基于一个软件来实现的,这个软件叫做BIND(Berkeley Internet Name Domain),互联网上几乎所有的DNS服务都是由BIND来构建的,虽然也有其它的DNS服务构建标准,但是它们的使用语法以及工作机制都和BIND非常接近. ·Linux服务器和Windows服务器的比较 Linux服务器在没有SELinux的时候它的安全级别和Windows服务器的安全级