数据挖掘笔记

关联分析、噪声、高维性

数据挖掘不是信息检索

数据库中知识发现KDD:

输入数据->

数据预处理(特征选择、维归约、规范化、选择数据子集)->
数据挖掘->
后处理(模式过滤、可视化、模式表示)->

信息

数据预处理阶段,涉及融合多个数据源的数据、清洗数据、去噪和重复的观测值。

后处理阶段,还能用统计度量或假设检验,删除虚假的数据挖掘结果。

数据挖掘利用了来自如下一些领域的思想:1.来自统计学的抽样、估计、假设检验 2.人工智能、模式识别、机器学习的搜索算法、建模技术和学习理论 3.数据库技术 4.分布式计算、并行计算

数据挖掘任务:预测任务(  由一些属性(自变量或说明变量) 预测 其他特定的属性(因变量或目标变量)  )、描述任务(导出 概括数据中潜在联系的 模式)(相关、趋势、聚类、轨迹、异常)。

预测建模任务:分类(classification)(用于预测离散的目标变量)  和  回归(regression)(用于预测连续的目标变量)

关联分析(association analysis) 用来发现描述数据中强关联特征的模式。

聚类分析(cluster analysis) 旨在发现紧密相关的观测值群组,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。

时间: 2024-09-30 23:58:04

数据挖掘笔记的相关文章

机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)

http://www.cnblogs.com/tornadomeet/p/3395593.html 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理) 前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大.

数据挖掘笔记(1)

1)数据挖掘的一种定义     是一项通过探测大量数据以发现有意义的模式和规则的业务流程.     数据挖掘是一种业务流程,它以其它业务流程产生的大量数据为输入,一般经过收集,清洗,整理,识别.分析和度量等加工,得到某种有意义的模式或规则作为输出.而这种输出反过来可以为其它业务流程提供度量,判断,预测等作用.     数据挖掘的基础是大量的数据,不同的挖掘方法和目的对于数据量的要求会有所不同,但一般而言,都是数据越多越好.对于数据挖掘而言,所有数据都是有用的,但对于某种具体的挖掘任务,就需要识别

数据挖掘笔记(三)—数据预处理

1.原始数据存在的几个问题:不一致:重复:含噪声:维度高. 2.数据预处理包含数据清洗.数据集成.数据变换和数据归约几种方法. 3.数据挖掘中使用的数据的原则 应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义:统一多数据源的属性值编码:去除惟一属性:去除重复性:去除可忽略字段:合理选择关联字段. 4.处理空缺值的方法:忽略该记录:去掉属性:手工填写空缺值:使用默认值:使用属性平均值:使用同类样本平均值:预测最可能的值. 5.噪声数据

关于机器学习和深度学习的资料

声明:转来的,原文出处:http://blog.csdn.net/achaoluo007/article/details/43564321 编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等.而且原文也会不定期的更新,望看到文章的朋友能够学到更多. <Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost 到随机森林.Deep Learning. &

机器学习和深度学习学习资料

比较全面的收集了机器学习的介绍文章,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.Deep Learning. <机器学习经典论文/survey合集>介绍:看题目你已经知道了是什么内容,没错.里面有很多经典的机器学习论文值得仔细与反复的阅读. <Brief History of Machine Learning>25介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.Deep Learning. <

高斯过程回归

参考资料: http://kingfengji.com/?p=44 说说高斯过程回归 http://www.cnblogs.com/tornadomeet/archive/2013/06/15/3137239.html 机器学习&数据挖掘笔记_11(高斯过程回归) ? 在网上找了许久,终于找到几篇关于介绍这方面的文章,在第一篇文章的链接中,我们可以去下载一些demo 不过没看明白,程序也没调通.大神们,可以在试试. ? 何为高斯过程回归: 其实分为两个过程,高斯过程+回归. 高斯过程:其实就是在

机器学习(Machine Learning)&amp;深度学习(Deep Learning)资料

机器学习(Machine Learning)&深度学习(Deep Learning)资料 <Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.Deep Learning. <Deep Learning in Neural Networks: An Overview> 介绍:这是瑞士人工智能实验室Jurgen Schmidhuber写的最新版本

【转】自学成才秘籍!机器学习&amp;深度学习经典资料汇总

小编都深深的震惊了,到底是谁那么好整理了那么多干货性的书籍.小编对此人表示崇高的敬意,小编不是文章的生产者,只是文章的搬运工. <Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.Deep Learning. <Deep Learning in Neural Networks: An Overview> 介绍:这是瑞士人工智能实验室Jurgen Sc

机器学习(Machine Learning)&amp;深入学习(Deep Learning)资料

<Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost 到随机森林.Deep Learning. <Deep Learning in Neural Networks: An Overview> 介绍:这是瑞士人工智能实验室 Jurgen Schmidhuber 写的最新版本<神经网络与深度学习综述>本综述的特点是以时间排序,从 1940 年开始讲起,到