如何学好数据挖掘(二)

在上一篇文章中我们给大家介绍了学习数据挖掘的第一条路线,第一条路线讲述的是如何学习机器学习的第一部分,主要是数据挖掘方面,懂得了这些我们才能够进行下一步的工作,那么学习数据挖掘的第二条路线是什么呢?我们在这篇文章中给大家介绍一下相关的知识。

首先给大家说一下数据挖掘的技术过程,数据挖掘的技术过程有很多,比如数据清理(消除噪音或不一致数据)、数据集成(多种数据源可以组合在一起)、数据选择(从数据库中提取与分析任务相关的数据)、数据变换(数据变换或统一成适合挖掘的形式;如,通过汇总或聚集操作)、数据挖掘(基本步骤,使用智能方法提取数据模式)、模式评估(根据某种兴趣度度量,识别提供知识的真正有趣的模式)、知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。

然后给大家说一下数据挖掘的第二条路线,就是K-means,然后是EM,然后是朴素贝叶斯,然后是贝叶斯网络,然后是隐马尔科夫模型(基本模型,前向算法,维特比算法,前向-后向算法),然后是卡尔曼滤波。这条线路所涉及的基本都是那些各种画来画去的图模型,一个学术名词是 PGM。这条线的思路和第一条是截然不同的!贝叶斯网络、HMM(隐马尔科夫模型),K-means 和 EM 具有与生俱来的联系,认识到这一点才能说明你真正读懂了它们。而EM算法要在HMM的模型训练中用到,所以我们要先学EM才能深入学习HMM。所以尽管在EM中看不到那种画来画去的图模型,但还把它放在了这条线路中,这也就是原因所在。朴素贝叶斯里面的很多内容在,贝叶斯网络和HMM里都会用到,类似贝叶斯定理,先验和后验概率,边缘分布等等(主要是概念性的)。最后,卡尔曼滤波可以作为HMM的一直深入或者后续扩展。尽管很多有的书里没把它看做是一种机器学习算法(或许那些作者认为它应该是信号处理中的内容),但是它也确实可以被看成是一种机器学习技术。很多科学家也深刻地揭示了它与HMM之间的紧密联系。

关于数据挖掘的学习路线我们就给大家介绍到这里了,想必大家看了这篇文章以后已经知道了数据挖掘怎么学习了吧?大家在进行学习数据挖掘的时候还是要根据自己的进度进行学习,这样才能够得出一个极好的效果。

原文地址:https://www.cnblogs.com/CDA-JG/p/10419054.html

时间: 2024-11-09 02:56:15

如何学好数据挖掘(二)的相关文章

数据挖掘(二)——knn算法的java实现

1.K-近邻算法(Knn) 其原理为在一个样本空间中,有一些已知分类的样本,当出现一个未知分类的样本,则根据距离这个未知样本最近的k个样本来决定. 举例:爱情电影和动作电影,它们中都存在吻戏和动作,出现一个未知分类的电影,将根据以吻戏数量和动作数量建立的坐标系中距离未知分类所在点的最近的k个点来决定. 2.算法实现步骤 (1)计算所有点距离未知点的欧式距离 (2)对所有点进行排序 (3)找到距离未知点最近的k个点 (4)计算这k个点所在分类出现的频率 (5)选择频率最大的分类即为未知点的分类 3

数据挖掘二

采用的单个基分类器的分类算法 采用了四个算法,主要看哪些算法的结果好,运算快便使用.神经网络很慢.....跑了好多小时. 最终评价指标

数据仓库与数据挖掘(二)

1.简述数据仓库的设计步骤. 数据仓库规划(用户业务目标.仓库目标)和需求分析.建模.物理模型设计.部署.维护. 2.简述星型模式和雪花模式的区别. 一个事实.一组维表 一个事实.维表接维表 3.数据仓库三种模式之间的关系. 星型.雪花.星座 4.在设计数据仓库时,为什么确定事实表的粒度非常重要? 事实与粒度相匹配. 5.以下关于数据粒度的叙述中哪些是错误. (1)粒度是指数据仓库小数据单元的详细程度和级别. (2)数据越详细,粒度就越小,抽象级别也就越高. (3)数据综合度越高,粒度就越大,抽

顶尖数据挖掘开发平台(TipDM-D2)产品白皮书

      顶尖数据挖掘开发平台 (TipDM-D2)           产  品  白  皮  书 广州泰迪智能科技有限公司 版权所有 地址: 广州市经济技术开发区科学城232号 网址: http://www.tipdm.com 邮箱: [email protected] 热线: 40068-40020 邮编: 510663 电话: (020)82039399 目  录 第1章 引言.......................................................

对编程有点迷茫的人一定要看(转)

某人问: 程序员前辈帮帮我!前途迷茫!26岁了作不了决择! 23岁毕业班到现在26岁了,啥都不会,学的计算机语言有VB,VF! 人生该定目标了! 1.可我26开始重新自修编程,以后有前途吗?我得挣更多钱呀! 2.如果还有希望的话,我先C,C++?还是JAVA,还是网络或者网页编程 ?还是.net?还是网站开发? 4.我真的就吃不了青春饭了吗? 3.如果要选其中的一样,要结合学哪些,才可以综合为以后工作铺路? 5.有一前辈给我选的,C语言+C语言描述的数据结构,还有oracle 10G简明教程用来

DIV + CSS综合实例【传智PHP首页】

1.首页结构 2.准备工作 所有素材放到与当前网页同级的目录下: 网页背景色.背景图: 主页宽度:1000px: 创建CSS文件,将CSS文件引入到当前的HTML文件中. 3.实现 效果图: 源代码: HTML代码: 1 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"&

猫猫学iOS(五十六)网络基础以及如何搭建服务器

猫猫分享,必须精品 原创文章,欢迎转载.转载请注明:翟乃玉的博客 地址:http://blog.csdn.net/u013357243?viewmode=contents 一:为什么要学习网络编程 关于这个问题,为什么要学习网络编程,猫猫的理解就是,这东西是时代发展的必要,没什么为什么,就是应该学,除非你就是想玩单机,但是就算是单机也会有购买金币之类的网络需求,简单来说,有了网络,让你不再是一个人在战斗. 网络编程是一种实时更新应用数据的常用手段 . 网络编程是开发优秀网络应用的前提和基础. 总

第56课:Spark SQL和DataFrame的本质

一.Spark SQL与Dataframe Spark SQL之所以是除Spark core以外最大和最受关注的组件的原因: a) 能处理一切存储介质和各种格式的数据(你同时可以方便的扩展Spark SQL的功能来支持更多的数据类型,例如KUDO) b)Spark SQL 把数据仓库的计算能力推向了一个新的高度.不仅是无敌的计算速度(Spark SQL比Shark快了一个数量级,Shark比Hive快了一个数量级),尤其是在tungsten成熟以后会更加无可匹敌.更为重要的是把数据仓库的计算复杂

MATLAB数据分析与挖掘实战

这篇是计算机中数据库存储与管理类的优质预售推荐<MATLAB数据分析与挖掘实战>. 多位资深数据挖掘专家10余年实战经验结晶,深入讲解数据挖掘各个环节的各项技术. 编辑推荐 通过10余个真实的案例为10余个行业的数据挖掘提供了解决方案,并提供相关的建模文件和源代码. 前言部分  为什么要写这本书 LinkedIn 对全球超过3.3亿用户的工作经历和技能进行分析后得出,在目前最炙手可热的25项技能中,数据挖掘人才需求排名第一.那么数据挖掘是什么? 数据挖掘是从大量数据(包括文本)中挖掘出隐含的.