数据挖掘---介绍

数据挖掘(Data Mining)又称知识库知识发现(Knowledge-Discovery in Databases  简称KDD)。

  1.什么是DM?(what?)

简单点说,DM就是从海量数据中找到有价值的知识,这些知识可以是规则、约束、模式、规律等等。 这些知识可以使用图表,决策树,关联表等进行表示说明。

说到DM,感觉就应该说到数据库技术的发展。我们知道数据库技术从1960年代的简单收集数据到DBMS、关系型数据库等,一路发展过来的,也正是由于数据库技术的不断发展才会为DM的出现打下基础。

2.为什么会有DM?(why?)

      主要是因为数据爆炸问题。当前由于数据收集和数据存储技术的快速发展使得各组织机构可以获得并积累海量的数据,比如google、facebook等,它们每天产生的数据量非常海量,然而利用传统的数据分析方法从这些海量数据中提取有用信息却是很有挑战,因此就衍生出数据挖掘这个概念。因此我们也可以这么认为,数据挖掘是一门技术,它将传统的的数据分析方法和处理大规模数据的复杂算法结合起来。

有一句话说的好:“我们淹没于数据中,却渴望得到知识”

     3.在哪里使用了DM?(where?)      

     首先简单说明一下数据挖掘的一些技术:

1)关联规律的发现:Aprior算法

2)聚类分析:无师自同,训练数据没有类别标签

3)模型分类:举一反三,训练数据有类别标签,有监督学习。

4)异常检测:识别其特征明显不同于其他数据的观测值,寻找异常点或者离群点。

5)数据立方体,可视化等等。

简单说明几个应用:

1)customer Relationship Management(CRM) ---------客户关联规则,比如用于购物的推荐这些

2)web Analysis-------web网页的内在次序问题,google的网页搜索

3)图像识别----分类问题

4)Bioinformatics—序列模式,蛋白质,基因序列的预测分类等

一般来说应用的不同,它们挖掘的数据类型也会是不同的。数据类型的不同也就导致我们采用不同的数据挖掘技术来分析数据。我们知道现在的数据类型不同与以往,现在的数据类型多种多样:

有结构化的:如存储在数据库中的数据,这些数据之间的关系明确,易于分析

半结构化的:如xml数据,数据的结构也是可以看得出来的,就是没有那么明显而已

无结构化的:如文本文件,web网页内容,视频流等,数据之间的关系没有明确的结构,难以用于分析处理。

数据的收集技术的发展的导致了大量的以序列,图,数等形式出现的高维复杂数据,因此对大规模的高维复杂的数据进行分析是很重要的一个任务。

 4.数据挖掘流程:

      知识发现过程: 数据清理--数据仓库--数据选择--数据挖掘--知识(数据预处理、数据挖掘、结果分析)

     

      5.数据挖掘理论:

数据挖掘是一门交叉学科,包括信息检索、统计学、机器学习、数据压缩,信息论等等。。

时间: 2024-12-24 02:05:25

数据挖掘---介绍的相关文章

数据挖掘介绍

前言: 由于自己是统计专业的,并且最近做的项目里边涉及到了数据挖掘的知识点,所以就抽出时间来总结一下数据挖掘的知识点,如有不当之处希望各位读者指正. 主要想讲一讲数据挖掘的概念以及关于数据的一些内容,相对来说,理论内容偏多,但加深对这些东西的认识会让你在做数据挖掘时更有目的性. 1.数据挖掘 定义:在大型数据存储库中,自动地发现有用信息的过程. 数据挖掘的一般过程包括以下这几个方面: 数据预处理 确定数据集后,就开始对数据进行预处理使得数据能够为我们所用了.包括数据清理.数据集成.数据规约和数据

机器学习课程3-笔记

课程3 课程3 大纲 多元线性回归的最小二乘解 1几何解释 2广义逆的奇异性 3无偏估计 岭回归 1几何意义 2岭回归的性质 3的选择原则 4用岭回归选择变量 5岭回归存在的问题 6通过R演练 LASSO 1LASSO vs 岭回归 11弹性网 2求解过程LAR算法 1.大纲 扔给你一堆数据,可能有成百上千各变量,怎样变量选择,怎样排除多重共线性问题: 要么丰厚的业务知识丰富,根据经验来选择: 要么让数据自己说话,把相关的变量筛选出来,这是很典型的数据挖掘 介绍两个回归方法 岭回归(Ridge

数据集搜集整理

1. CIFAR-10 & CIFAR-100 CIFAR-10包含10个类别,50,000个训练图像,彩色图像大小:32x32,10,000个测试图像. (类别:airplane,automobile, bird, cat, deer, dog, frog, horse, ship, truck) (作者:Alex Krizhevsky, Vinod Nair, and Geoffrey Hinton) (数据格式:Python版本.Matlab版本.二进制版本<for C程序>)

数据挖掘10大算法详细介绍

想初步了解下怎样数据挖掘,看到一篇不错的文章转载过来啦~ 转自:http://blog.jobbole.com/89037/ 在一份调查问卷中,三个独立专家小组投票选出的十大最有影响力的数据挖掘算法,今天我打算用简单的语言来解释一下. 一旦你知道了这些算法是什么.怎么工作.能做什么.在哪里能找到,我希望你能把这篇博文当做一个跳板,学习更多的数据挖掘知识. 还等什么?这就开始吧! 1.C4.5算法 C4.5是做什么的?C4.5 以决策树的形式构建了一个分类器.为了做到这一点,需要给定 C4.5 表

kaggle数据挖掘——以Titanic为例介绍处理数据大致步骤

Titanic是kaggle上的一道just for fun的题,没有奖金,但是数据整洁,拿来练手最好不过. 本文以 Titanic 的数据,使用较为简单的决策树,介绍处理数据大致过程.步骤 注意,本文的目的,在于帮助你入门数据挖掘,熟悉处理数据步骤.流程 决策树模型是一种简单易用的非参数分类器.它不需要对数据有任何的先验假设,计算速度较快,结果容易解释,而且稳健性强,对噪声数据和缺失数据不敏感.下面示范用kaggle竞赛titanic中的数据集为做决策树分类,目标变量为survive 读取数据

【机器学习 &amp; 数据挖掘 通俗介绍】

如何向小白介绍何谓机器学习和数据挖掘?买回芒果他就懂了 JasonZheng • 2013-01-07 22:18 买芒果 嘴馋的你想吃芒果了,于是你走到水果摊,挑了几个让老板过过秤,然后你再根据芒果的斤两付钱走人. 显然,买芒果你当然是挑着最甜.最熟的来买(因为你是根据重量而不是质量来掏钱的).怎么个挑法才靠谱呢? 对了,你奶奶说过,金黄色的要比浅黄的更甜些.于是你就做了一个简单的规定:只挑金黄色的买,过磅.付钱.回家.就这么简单? 不尽然. 生活没那么简单 拎着芒果回到了家,尝了尝,你发现有

《数据挖掘R语言实战》图书介绍,数据挖掘相关人员看过来!

今天介绍一本书<数据挖掘R语言实战>.数据挖掘技术是当下大数据时代最关键的技术,其应用领域及前景不可估量.R是一款极其优秀的统计分析和数据挖掘软件,R语言的特点是入门容易,使用简单. 这本书侧重使用R进行数据挖掘,重点进述了R的数据挖掘流程.算法包的使用及相关工具的应用,同时结合大量精选的数据挖掘实例对R软件进行深入潜出和全面的介绍,以便读者能深刻理解R的精髓并能快速.高效和灵活地掌握使用R进行数据挖掘的技巧. 本书以数据预处理.基本算法及应用和高级算法及应用这三篇展示. (1)上篇:数据预处

数据挖掘与机器学习介绍

数据挖掘 1.定义: 数据挖掘(Data Mining)是有组织有目的地收集数据,通过分析数据使之成为信息,从而在大量数据中寻找潜在规律以形成规则或知识的技术. 2.数据挖掘与机器学习的关系: 机器学习可以用来作为数据挖掘的一种工具或手段: 数据挖掘的手段不限于机器学习,譬如还有诸如统计学等众多方法: 但机器学习的应用也远不止数据挖掘,其应用领域非常广泛,譬如人工智能: 机器学习 1.定义: 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论.统计学.逼近论.凸

Spark 【数据挖掘平台介绍】 - Spark 1.1.0

一:Spark Spark已正式申请加入Apache孵化器,从灵机一闪的实验室"电火花"成长为大数据技术平台中异军突起的新锐.本文主要讲述Spark的设计思想.Spark如其名,展现了大数据不常见的"电光石火".具体特点概括为"轻.快.灵和巧". 轻:Spark 0.6核心代码有2万行,Hadoop 1.0为9万行,2.0为22万行.一方面,感谢Scala语言的简洁和丰富表达力:另一方面,Spark很好地利用了Hadoop和Mesos(伯克利 另