传统数据挖掘技术小结

数据分析或者挖掘到底在做什么?认为分析是为了定性地、概括地从庞大的数据中找到规律,找到数据挖掘的方向。就像解数学题之前要对题目进行定性,简单的推演以找到解决数学问题的思路。

数据挖掘是从庞大的信息源中获得知识1的过程。数据挖掘是为了得到目标结果而使用的方法,手段。有一些比较成熟的数据挖掘算法。如,决策树算法2,神经网络算法2,支持向量机3,线性回归等。其中决策树算法时间复杂度最低,应该是最常用的挖掘算法。

知识的挖掘离不开信息源。未经处理的信息往往带有很大的噪声。因此必须要对原始信息进行处理。这也就是所谓的数据清洗,属于数据预处理模块。

经过处理后的数据更加干净,准确,简化。可以更好地为挖掘使用。从而减少了数据挖掘算法模块的数据处理量,提高了挖掘的效率和知识发现的起点,准确度。

经过数据预处理模块之后便可以进入到挖掘算法模块了。再经过某种方法将数据处理之后便可以得到一定的模式或规则。但是这时得到的模式并不是最终的知识,因为模式有可能是冗余的、无效的,甚至是错误的。这就需要做进一步处理。

得到无误的模式之后,还需要对模式解释表达,使用户能够理解,进而能够做出评估判断。这就是信息展示要做的工作。此时要借助一些可视化技术和传统的知识表达技术,这样可以更加形象,直观地表出挖掘的结果。

总而言之,数据挖掘得到知识的过程是:

1、  得到预处理的数据;

2、  数据挖掘算法(分类处理数据)得到模式或者规则;

3、  模式形象地展示出来。

时间: 2024-10-21 09:25:14

传统数据挖掘技术小结的相关文章

SVG图片技术小结

今天在公司没事,研究了一下最近流行的SVG技术,发现,随着css3的不断流行,和浏览器技术的发展,SVG将会取代网站大量图片,成为网站图片展现的主流. AI是我们常用的矢量图编辑器,现在AI可以直接另存SVG图片,SVG图片相比传统图片,占位更小,浏览更方便!而且可扩展性更强! 下面看一个SVG的例子: <?xml version="1.0" standalone="no"?> <!DOCTYPE svg PUBLIC "-//W3C//

数据挖掘技术在信用卡业务中的应用及实例分析

信用卡业务具有透支笔数巨大.单笔金额小的特点,这使得数据挖掘技术在信用卡业务中的应用成为必然.国外信用卡发卡机构已经广泛应用数据挖掘技术促进信用卡业务的发展,实现全面的绩效管理.我国自1985年发行第一张信用卡以来,信用卡业务得到了长足的发展,积累了巨量的数据,数据挖掘在信用卡业务中的重要性日益显现. 一.数据挖掘技术在信用卡业务中的应用 数据挖掘技术在信用卡业务中的应用主要有分析型客户关系管理.风险管理和运营管理. 1.分析型CRM 分析型CRM应用包括市场细分.客户获取.交叉销售和客户流失.

大数据挖掘技术在电网状态监测与诊断中的应用

大数据挖掘技术在电网状态监测与诊断中的应用 吴振扬( 国网吉林省电力有限公司 , 吉林 长春 130000)[ 摘要 ] 大数据是目 前国内外各个领域的一个研究应用热点. 本文基于大数据技术, 阐述了 大数据技术对于电网发展的重要意义,大数据挖掘技术的发展状况: 分析了 大数据挖掘技术的几种算法特点, 并通过比较选择聚类方法作为在电网状态监测与诊断中应用的方法: 运用聚类算法展望将大数据挖掘技术应用于电网状态监测中的可能.[ 关键词 ] 大数据: 电网: 挖掘: 数据: 监测: 预警: 诊断[

【数据挖掘技术】回归

回归(Regression)分析包括线性回归(Linear Regression),这里主要是指多元线性回归和逻辑斯蒂回归(Logistic Regression).其中,在数据化运营中更多的使用逻辑斯蒂回归,它包括响应预测.分类划分等内容. 多元线性回归主要描述一个因变量如何随着一批自变量的变化而变化,其回归公式(回归方程)就是因变量和自变量关系的数据反映.因变量的变化包括两部分:系统性变化与随机性变化,其中,系统性变化是由自变量引起的(自变量可以解释的),随机变化是不能由自变量解释的,通常也

前端html、Javascript、CSS技术小结

简单地总结了一下前端用过的html.javascript.css技术,算是清点一下,做个大略的小结,为进一步的学习给个纲领. 一.HTML 由于HTML5的兴起,简单地判断一个网页是否是html5网页,只需要找找内部是否有html5的标志性标签就行了.然而平时虽然写了不少html,却没怎么关注它的发展史: GML(Generalized Marcup Language)通用标记语言 和SGML(Standard Generalized Markup Language)标准通用标记语言. 由Tim

【java并发】传统线程技术中的定时器技术

传统线程技术中有个定时器,定时器的类是Timer,我们使用定时器的目的就是给它安排任务,让它在指定的时间完成任务.所以先来看一下Timer类中的方法(主要看常用的TimerTask()方法): 返回值 方法名 方法描述 void schedule(TimerTask task, long delay) 安排在指定延迟后执行指定的任务. void schedule(TimerTask task, long delay, long period) 安排指定的任务从指定的延迟后开始进行重复的固定延迟执

【数据挖掘技术】关联规则(Apriori算法)

一.关联规则中的频繁模式   关联规则(Association Rule)是在数据库和数据挖掘领域中被发明并被广泛研究的一种重要模型,关联规则数据挖掘的主要目的是找出: [频繁模式]: Frequent Pattern,即多次重复出现的模式和并发关系(Cooccurrence Relationships),即同时出现的关系,频繁和并发关系也称为关联(Association). 二.应用关联规则的经典案例:沃尔玛超市中“啤酒和尿不湿”的经典营销案例 购物篮分析(Basket Analysis):通

【数据挖掘技术】神经网络模型

神经网络模型 一.神经网络模型 对网络模型的研究始于20世纪40年代,作为一门交叉学科,它是人类基于对其大脑神经认识的基础上,人工构造实现某种功能的网络模型.经过将近70年的发展,神经网络模型已成为机器学习的典型代表,它不依照任何概率分布,而是模仿人脑功能进行抽象运算.神经网络(Neutral Network)是通过数学算法来模仿人脑思维的,它是数据挖掘中机器学习的典型代表.神经网络是人脑的抽象计算模型,我们知道人脑中有数以百亿个神经元(人脑处理信息的微单元),这些神经元之间相互连接,是的人的大

Java多线程与并发库高级应用-传统定时器技术回顾

传统定时器技术回顾(jdk1.5以前) public class TraditionalTimerTest { static int count = 0; public static void main(String[] args) { //10秒后开始执行,每隔3秒执行一次 new Timer().schedule(new TimerTask() { @Override public void run() { System.out.println("bombing..."); } }