数据挖掘概述

最近看了比较多的关于大数据处理方面的知识,但是例如Hadoop,Spark,Storm等平台大都是对于数据的存储和管理操作,并不是对于数据进行分析和处理的。所以这里就衍生出了另外一种对于数据的处理,数据挖掘。学习数据挖掘也非常偶然,首先毕竟本人一直在做的是数据方面的工作,数据挖掘相当于是对数据处理后的下一步操作,学习一下数据挖掘的基本知识,了解了解常用的一些数据挖掘算法,对我来说也是一件不错的事。

由于我目前的水准还只是入门水准,就简单的聊聊数据挖掘的基本概念。数据挖掘,英文为:Data Miming,又叫KDD,知识的再次发现,数据挖掘,顾名思义,就是从数据中发掘出对于人们来说,有意义的东西。数据挖掘无处不在,最常见的就是在网上购物的时候,人家会推荐一些可能让你感兴趣的商品。专业上讲,这叫BI(商业智能)。还有很多例如银行利用数据进行欺诈检测。下面是数据挖掘的一般步骤:

1.数据清理(数据预处理)

2.数据集成(数据预处理)

3.数据选择(数据预处理)

4.数据变换(数据预处理)

5.数据挖掘

6.模式评估

7.知识表示

前四步又是作为数据预处理的操作。数据预处理有很多作用,比如取出噪声数据或者是离群点的处理,还有数据的规格化的操作。也许你会问,我们这么庞大的数据存在于什么地方呢,像一般的系统,就是存在于关系数据库中,但是这时候就有问题了,数据挖掘对于数据的需求量往往是非常大的,这就需要很多的数据,所以我们通过一个叫数据仓库的概念,把许多的数据库组织起来,形成一个数据仓库,然后我们对于数据仓库进行OLAP联系分析处理。而数据仓库又是以数据立方体的形式来表现数据的情况的。

挖掘数据的什么

数据挖掘都挖出些什么东西呢,首先一个就是频繁模式的挖掘,这个很好理解吧,这里涉及很多的频繁项集的挖掘算法,比如Apriori算法,里面还有很多关联和相关性的要素。还有一个挖掘中经常提到的东西叫分类,分类算法在数据挖掘中也是非常重要的,比较常被人说起的就是贝叶斯分类算法,基于概率统计的算法,随后在分类算法的基础上又出现了聚类分析,就有了后面的k-means算法,k-中心点算法。对于前面的2大模块的挖掘体系,都有相对应的高级阶段的挖掘分析。对于更加特殊的数据格式和更加复杂的环境又会有不同的挖掘算法和方式的不同。

数据挖掘的展望

未来一定会是一个数据大爆炸的时代,数据挖掘将会是一个非常热门的领域,他是一个多学科交叉的领域,机器学习,神经网络,统计学,对于各行各业都会起到非常重要的作用。

时间: 2024-10-10 02:11:52

数据挖掘概述的相关文章

数据分析与数据挖掘概述

1.什么是数据分析与数据挖掘技术? 所谓数据分析,即对已知的数据进行分析,然后提出一些有价值的信息.比如统计出平均数.标准差等信息,数据分析的数据量有可能不会太大.而数据挖掘,是指对大量的数据进行分析和挖掘,得到一些未知的有价值的信息等,比如从网站的用户或用户行为数据中挖掘出潜在需求信息,从而对网站进行改善等.数据分析与数据挖掘密不可分,数据挖掘是数据分析的提升. 2.数据分析与挖掘技术能做什么事情? 数据挖掘技术能够帮助我们更好的发现事物之间的规律.所以,我们可以利用数据挖掘技术实现数据规律的

2.数据挖掘概述——《数据挖掘与数据化运营实战》

2.1 数据挖掘概念 数据挖掘(Data Mining)是知识发现(KDD)的核心部分,它指的是从数据集合众自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为规则.概念.规律及模式等.总体来说,数据挖掘融合了数据库.人工智能.机器学习.统计学.高性能计算.模式识别.神经网络.数据可视化.信息检索和空间数据分析等多个领域的理论和技术. 2.2 统计分析与数据挖据的主要区别 相对于传统的统计分析技术,数据挖掘有如下特点: 数据挖掘擅长处理大数据,尤其是几百万行甚至更大的数据. 数据

第二章:数据挖掘概述

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为规则.概念.规律及模式等 2.1数据挖掘的发展历史 ..... 2.2数据分析与数据挖掘的主要区别 相对于传统的统计分析技术,数据挖掘有如下特点: 数据挖掘擅长处理大数据(几十几百万行或者更多的数据) 数据挖掘在实践应用中一般都会借助数据挖掘工具 数据分析应用的趋势是用大型数据库中抓取数据 数据挖掘是统计分析技术的延伸和发展 数据挖掘和统计分析的差别: 统计分析的基础之一就是概率论,对数据进行统计分析需要

玩转大数据:深入浅出大数据挖掘技术(Apriori算法、Tanagra工具、决策树)

一.本课程是怎么样的一门课程(全面介绍) 1.1.课程的背景 “大数据”作为时下最火热的IT行业的词汇,随之而来的数据仓库.数据分析.数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点. “大数据” 其实离我们的生活并不遥远,大到微博的海量用户信息,小到一个小区超市的月销售清单,都蕴含着大量潜在的商业价值. 正是由于数据量的快速增长,并且已经远远超过了人们的数据分析能力.因此,科学.商用等领域都迫切需要智能化.自动化的数据分析工具.在这样的背景下,数据挖掘技术应用而生,使得

《数据挖掘:R语言实战》

<数据挖掘:R语言实战> 基本信息 作者: 黄文    王正林 丛书名: 大数据时代的R语言 出版社:电子工业出版社 ISBN:9787121231223 上架时间:2014-6-6 出版日期:2014 年6月 开本:16开 页码:292 版次:1-1 所属分类:计算机 > 软件与程序设计 > 综合 > 高级程序语言设计 更多关于>>><数据挖掘:R语言实战> 内容简介 书籍 计算机书籍 数据挖掘技术是当下大数据时代最关键的技术,其应用领域及前景

《大话数据挖掘》读书

目 录 第1章 揭开数据挖掘的面纱1 1.1 历史的使命2 数据挖掘的最高境界就是 从数据中获取知识,辅助科学决策. 1.2 数据挖掘的故事6 1.2.1 震撼业界的发现6 --- 沃尔玛 啤酒与尿布 1.2.2 降低成本的绝活9 -- 派克汉尼公司 机器零件磨损分析 1.2.3 出奇制胜的小纸条11 -- 足球点球数据 1.3 什么是数据挖掘?14 数据挖掘就是从大量的.不完全的.有噪声的.模糊的.随机的数据中,提取隐含在其中的.人们事先不知道的.但又是潜在有用信息和知识的过程. 1.4 历史

合格大数据分析师应该具备的技能

阶段一.业务数据分析师 课程一.数据挖掘/分析师之硬技能 - 必备常用工具使用与高级技巧 本部分内容主要介绍了数据挖掘.分析师.数据产品经理必备的常用工具的,主要有 Excel,Visio,Xmind,PPT的涉及图表数据分析方面的高级技巧,包括但不限于:数据透视表演练.Vision跨职能流程图演练.Xmind项目计划导图演练.PPT高级动画技巧等! 一.Excel 1)数据分析工具EXECL入门介绍2)数据透视表演练 3) 数据处理4) EXECL报告自动化5) PPT报告数据自动化 二.Vi

[数据挖掘] - 聚类算法:K-means算法理解及SparkCore实现

聚类算法是机器学习中的一大重要算法,也是我们掌握机器学习的必须算法,下面对聚类算法中的K-means算法做一个简单的描述: 一.概述 K-means算法属于聚类算法中的直接聚类算法.给定一个对象(或记录)的集合,将这些对象划分为多个组或者“聚簇”,从而使同组内的对象间比较相似而不同组对象间差异比较大:换言之,聚类算法就是将相似的对象放到同一个聚簇中,而将不相似的对象放到不同的聚簇中.由于在聚类过程中不使用到类别标签,所以相似性的概念要基于对象的属性进行定义.应用不同则相似性规则和聚类算法一般不太

Python爬虫进阶一之爬虫框架概述

综述 爬虫入门之后,我们有两条路可以走. 一个是继续深入学习,以及关于设计模式的一些知识,强化Python相关知识,自己动手造轮子,继续为自己的爬虫增加分布式,多线程等功能扩展.另一条路便是学习一些优秀的框架,先把这些框架用熟,可以确保能够应付一些基本的爬虫任务,也就是所谓的解决温饱问题,然后再深入学习它的源码等知识,进一步强化. 就个人而言,前一种方法其实就是自己动手造轮子,前人其实已经有了一些比较好的框架,可以直接拿来用,但是为了自己能够研究得更加深入和对爬虫有更全面的了解,自己动手去多做.