数据挖掘笔记

关联分析、噪声、高维性

数据挖掘不是信息检索

数据库中知识发现KDD：

输入数据->

数据预处理(特征选择、维归约、规范化、选择数据子集)->

数据挖掘->

后处理(模式过滤、可视化、模式表示)->

信息

数据预处理阶段，涉及融合多个数据源的数据、清洗数据、去噪和重复的观测值。

后处理阶段，还能用统计度量或假设检验，删除虚假的数据挖掘结果。

数据挖掘利用了来自如下一些领域的思想：1.来自统计学的抽样、估计、假设检验 2.人工智能、模式识别、机器学习的搜索算法、建模技术和学习理论 3.数据库技术 4.分布式计算、并行计算

数据挖掘任务：预测任务( 由一些属性(自变量或说明变量) 预测其他特定的属性(因变量或目标变量) )、描述任务(导出概括数据中潜在联系的模式)(相关、趋势、聚类、轨迹、异常)。

预测建模任务：分类(classification)(用于预测离散的目标变量) 和回归(regression)(用于预测连续的目标变量)

关联分析(association analysis) 用来发现描述数据中强关联特征的模式。

聚类分析(cluster analysis) 旨在发现紧密相关的观测值群组，使得与属于不同簇的观测值相比，属于同一簇的观测值相互之间尽可能类似。

时间： 2024-09-30 23:58:04

数据挖掘笔记的相关文章

机器学习&数据挖掘笔记_16（常见面试之机器学习算法思想简单梳理）

http://www.cnblogs.com/tornadomeet/p/3395593.html 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理) 前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大.

数据挖掘笔记（1）

1)数据挖掘的一种定义是一项通过探测大量数据以发现有意义的模式和规则的业务流程. 数据挖掘是一种业务流程,它以其它业务流程产生的大量数据为输入,一般经过收集,清洗,整理,识别.分析和度量等加工,得到某种有意义的模式或规则作为输出.而这种输出反过来可以为其它业务流程提供度量,判断,预测等作用. 数据挖掘的基础是大量的数据,不同的挖掘方法和目的对于数据量的要求会有所不同,但一般而言,都是数据越多越好.对于数据挖掘而言,所有数据都是有用的,但对于某种具体的挖掘任务,就需要识别

数据挖掘笔记（三）—数据预处理

1.原始数据存在的几个问题:不一致:重复:含噪声:维度高. 2.数据预处理包含数据清洗.数据集成.数据变换和数据归约几种方法. 3.数据挖掘中使用的数据的原则应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义:统一多数据源的属性值编码:去除惟一属性:去除重复性:去除可忽略字段:合理选择关联字段. 4.处理空缺值的方法:忽略该记录:去掉属性:手工填写空缺值:使用默认值:使用属性平均值:使用同类样本平均值:预测最可能的值. 5.噪声数据

关于机器学习和深度学习的资料

声明:转来的,原文出处:http://blog.csdn.net/achaoluo007/article/details/43564321 编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等.而且原文也会不定期的更新,望看到文章的朋友能够学到更多. <Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost 到随机森林.Deep Learning. &

机器学习和深度学习学习资料

比较全面的收集了机器学习的介绍文章,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.Deep Learning. <机器学习经典论文/survey合集>介绍:看题目你已经知道了是什么内容,没错.里面有很多经典的机器学习论文值得仔细与反复的阅读. <Brief History of Machine Learning>25介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.Deep Learning. <

高斯过程回归

参考资料: http://kingfengji.com/?p=44 说说高斯过程回归 http://www.cnblogs.com/tornadomeet/archive/2013/06/15/3137239.html 机器学习&数据挖掘笔记_11(高斯过程回归) ? 在网上找了许久,终于找到几篇关于介绍这方面的文章,在第一篇文章的链接中,我们可以去下载一些demo 不过没看明白,程序也没调通.大神们,可以在试试. ? 何为高斯过程回归: 其实分为两个过程,高斯过程+回归. 高斯过程:其实就是在

机器学习(Machine Learning)&深度学习(Deep Learning)资料

机器学习(Machine Learning)&深度学习(Deep Learning)资料 <Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.Deep Learning. <Deep Learning in Neural Networks: An Overview> 介绍:这是瑞士人工智能实验室Jurgen Schmidhuber写的最新版本

【转】自学成才秘籍！机器学习&深度学习经典资料汇总

小编都深深的震惊了,到底是谁那么好整理了那么多干货性的书籍.小编对此人表示崇高的敬意,小编不是文章的生产者,只是文章的搬运工. <Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.Deep Learning. <Deep Learning in Neural Networks: An Overview> 介绍:这是瑞士人工智能实验室Jurgen Sc

机器学习(Machine Learning)&深入学习(Deep Learning)资料

<Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost 到随机森林.Deep Learning. <Deep Learning in Neural Networks: An Overview> 介绍:这是瑞士人工智能实验室 Jurgen Schmidhuber 写的最新版本<神经网络与深度学习综述>本综述的特点是以时间排序,从 1940 年开始讲起,到